木村直紀
K2020_js
JAWS FESTA 2025 向けに、ブラウザからの音声をほぼリアルタイムで文字起こしするための機能を実装しました。本セッションでは、その技術選定と構成上の工夫を紹介します。
技術選定としては下記を選定しています。
・音声入力:MediaStream API+AudioWorklet など
・音声認識と翻訳:Amazon Transcribe SDKとTranslate SDK
音声入力に関しては安定性を考慮しました。その詳細な構成について説明させていただきます。
音声認識と翻訳はリアルタイム性と使いやすさを意識しました。UIにおける工夫も述べさせていただきます。
音声入力でWeb Speech API 、音声認識と翻訳でChime SDK や、API Gateway+Lambdaも候補に上がりましたが、それらを不採用とし、今回のリソースを採用した理由についても説明させていただきます。