ビジョンとサウンド:iPhoneを「目」と「耳」にする技術 by たまねぎ

iOSDC Japan 2023
レギュラートーク(20分)

ビジョンとサウンド:iPhoneを「目」と「耳」にする技術

_chocoyama たまねぎ _chocoyama
1

現在のiPhoneは、高度な認識能力を持つ「目」と「耳」を持っており、現実世界の物体や音の情報を簡単に取り込むことができるようになっています。
例えば、Vision/VisionKitを用いた物体・文字認識、ShazamKit/SoundAnalysisを用いた楽曲・環境音認識など、すぐ使える機能だけでも多数の技術が存在します。
本セッションではiOSで利用できる画像・音声認識周りの技術を整理し、それを用いた実装方法をデモを交えてご紹介いたします。

コンテンツ

  • 「目」となる技術(物体認識、文字認識)
  • 「耳」となる技術(楽曲認識、音声認識、環境音認識)
  • 各技術を用いたサンプル実装のデモ

聞き手の想定

  • 画像認識や音声認識周りの技術について、まずは深い理解よりも実現できる事の全体感を把握したい方
  • 実装方法の概要を掴み、自身のAppに組み込むイメージを持ちたい方