iOSDC Japan 2020
レギュラートーク(20分)

ML for 音声処理

shu223 堤 修一 shu223
4

iOSの音声処理系のフレームワークは、画像処理系のそれと比べて長らく大きな進化はしていませんでしたが、近年は機械学習の技術が取り入れられるようになり、多様な用途で役立つ可能性が飛躍的にアップしました。SoundAnalysisといったフレームワークも登場していますし、Core MLも初期の頃と比較してサポートするレイヤータイプが大幅に追加され、カスタムレイヤーも追加できるため、機械学習を用いた音声処理のかなり多くがiOSデバイス上でも動作するようになっています。

たとえば動画に対して話者識別処理を行い特定話者のフレームだけを抽出するといったことも可能ですし、マイクからの入力を利用して外界の状況をセンシングするようなこともできます。音楽データを楽器ごとに分類するような処理もかなりの精度で動くようになっています。またモデルをオンデバイスでパーソナライズすることも可能になっています。

本トークでは、機械学習を用いた音声処理について、iOSで動作可能なもの、そして実用的なものをピックアップして解説します。