GoogleSpeechToTextを活用して音声を動画にした話 by ようせい

iOSDC Japan 2019
採択
2019/09/05 18:40〜
Track A
レギュラートーク(30分)

GoogleSpeechToTextを活用して音声を動画にした話

fairy_engineer ようせい fairy_engineer

説明

Radiotalkは、音声配信プラットフォームで、誰でもラジオのようにトークを配信することができます。
最近、ワイヤレスイヤホンが普及などもあり、音声が注目されるようになってきました。
しかし、音声は、以下のような再生までのハードルが高い課題がありました。
・環境によっては今すぐ再生できない(音を出せる環境、ヘッドホンしているかなど)
・再生するトークを選ぶ際に、タイトルや詳細、画像などでしか判断できない(トークのテンションや声などは判断できない)

その課題を解決するために、音声の一部を書き起こして、テロップ動画でシェアできる機能を作成しました。
音声から動画を作成するまでの話と作り方をお話したいと思います。

発表内容

・開発の流れ
 ・なぜ音声を動画にすることになったのか
 ・動画のテンプレートを作るまでの流れ
 ・実装の一連の流れ
・音声トリミング方法
・音声の解析方法
 ・GoogleSpeechToTextなぜ採用したか
 ・GoogleSpeechToTextの仕様
 ・GoogleSpeechToText精度
・テロップ動画作成エディタのUI/UX
・静止画動画作成方法
・音声と動画の合成方法