Google Cloud Community Tech Surge 2026 presented by Jagu'e'r
公募セッション(30分)
配信会場(東京)

Google Cloudでの動画解析と検索のサービス紹介と比較

shu_kob 小渕 周 shu_kob

◻︎セッション概要(500文字以内)
動画コンテンツの爆発的な増加に伴い、「何が映っているか」を抽出するだけでなく、「特定のシーンをいかに高度に検索するか」というニーズが急増しています。本セッションでは、Google Cloud が提供する動画解析・検索ソリューションを網羅的に解説します。

具体的には、長年の実績がある Video Intelligence API、大規模なメディア管理と画像・テキストによる横断検索を実現する Vision Warehouse、そしてマルチモーダル LLM Gemini と Vertex AI Search を組み合わせた動画 RAG アーキテクチャを紹介します。

生成AIの進化により、従来のモデルでは困難だった「動画の文脈理解」や「自然言語による詳細なシーン特定」がどのように容易になったのか、デモを交えて解き明かします。各サービスのアーキテクチャやコスト、精度、ユースケースを徹底比較し、ビジネス課題に最適なサービス選定の指針を提示します。

◻︎想定オーディエンス・得られる学び(500文字以内)
【想定オーディエンス】

動画データを活用した新規ビジネスや業務効率化を検討しているエンジニア、PM

大量の映像アーカイブから特定のシーンを効率的に検索したいメディア・放送業界の方

Google Cloud の Vision AI / Generative AI 関連サービスの使い分けを知りたい技術選定者

【得られる学び】

Google Cloud 動画ソリューションの全容: Video Intelligence, Vision Warehouse, Gemini の役割と最新機能。

高度な検索手法の理解: テキストだけでなく、画像を用いた「類似シーン検索」の実装アプローチ。

動画 RAG の構築パターン: Gemini で抽出した高度なメタデータを Vertex AI Search で検索可能にする構成。

最適な技術選定基準: コスト、リアルタイム性、解析の深さに応じた、各サービスの具体的な使い分け基準。

◻︎セッション詳細(1000文字程度)

  1. 動画解析のパラダイムシフト
    これまでの動画解析は、物体検知やショット変更検知といった「タグ付け」が中心でした。しかし、Gemini に代表されるマルチモーダルモデルの登場により、数時間に及ぶ動画の文脈を理解し、複雑な質問に答えることが可能になりました。本セッションの冒頭では、この技術進化が動画検索にもたらす変化を整理します。

  2. 主要サービスの徹底解説と比較
    Google Cloud で動画を扱う際の 3 つの主要アプローチについて、深く掘り下げます。

Video Intelligence API: ラベル検知、ロゴ検知、不適切コンテンツのフィルタリングなど、定義済みのタスクを低コストかつ高速に処理する「従来型 AI」の強みを解説します。

Vision Warehouse (Vertex AI Vision): ペタバイト級の映像資産を管理し、「テキスト」や「参照画像」を用いて動画内を検索できる強力な機能を詳解します。特に、類似画像から該当する動画シーンを見つけ出すセマンティック検索の仕組みに触れます。

Gemini + Vertex AI Search (動画 RAG): Geminiの長尺コンテキストウィンドウを活用し、動画の内容を詳細に構造化(JSON化)した上で、Vertex AI Search で検索可能にする構成を紹介します。

  1. サービス比較マトリクス
    プロジェクトの要件に応じてどのサービスを選ぶべきか、以下の比較の軸等を用いて解説します。
    サービス:Video Intelligence、Vision Warehouse、Gemini + Vertex AI Search

比較の軸
・主な用途
・検索手段
・解析の方法と深さ
・実装難易度