“使える”音声AI Agent入門

iOSDC Japan 2025

レギュラートーク（20分）

“使える”音声AI Agent入門

igaryo ig4ry0

概要

近年のAIの急速な発展により、従来のコマンドベースの入出力と比較して、自然言語による入出力が一般的になり、ユーザーインターフェースは大きく変化しています。言語学習や運転中の操作など、ハンズフリーでの対話が求められる場面や、VisionOSなどでのキーボード入力が困難な場合において、音声インターフェースの重要性が増しています。一方で、実際に音声AIエージェントを実装しようとすると、チャットUIとは異なる固有の技術的課題に直面することになります。本セッションでは、現在開発中のAI英会話アプリでの実体験を通じて、音声インターフェース特有の課題とはまりどころ、およびその解決策を具体的なSwift実装とともに解説します。

話す内容（予定）

音声AI Agentのアーキテクチャ
AVAudioEngineを活用したストリーミングによる音声入出力
状態管理とそれに基づく会話の割り込み実装
Swift Concurrencyを利用したストリーミングデータパイプライン
gRPCストリーミングによるリアルタイム通信

話さない内容

AIモデルの学習方法や理論的背景
プロンプトエンジニアリングの詳細
LLMの性能評価や比較
基礎的な音声処理理論

fortee © 2026
forteeに関するお問い合わせ: @tomzoh

“使える”音声AI Agent入門 by igaryo

iOSDC Japan 2025

“使える”音声AI Agent入門

ログインが必要です