iOSDC Japan 2025
レギュラートーク(20分)

“使える”音声AI Agent入門

ig4ry0 igaryo ig4ry0
4

概要

近年のAIの急速な発展により、従来のコマンドベースの入出力と比較して、自然言語による入出力が一般的になり、ユーザーインターフェースは大きく変化しています。言語学習や運転中の操作など、ハンズフリーでの対話が求められる場面や、VisionOSなどでのキーボード入力が困難な場合において、音声インターフェースの重要性が増しています。一方で、実際に音声AIエージェントを実装しようとすると、チャットUIとは異なる固有の技術的課題に直面することになります。本セッションでは、現在開発中のAI英会話アプリでの実体験を通じて、音声インターフェース特有の課題とはまりどころ、およびその解決策を具体的なSwift実装とともに解説します。

話す内容(予定)

  • 音声AI Agentのアーキテクチャ
  • AVAudioEngineを活用したストリーミングによる音声入出力
  • 状態管理とそれに基づく会話の割り込み実装
  • Swift Concurrencyを利用したストリーミングデータパイプライン
  • gRPCストリーミングによるリアルタイム通信

話さない内容

  • AIモデルの学習方法や理論的背景
  • プロンプトエンジニアリングの詳細
  • LLMの性能評価や比較
  • 基礎的な音声処理理論