Google Cloud Community Tech Surge 2026 presented by Jagu'e'r
公募セッション(30分)
配信会場(東京)

Agent Engine × Gemini 3 Imageで作るステートフル対話アプリ

tttkkk215 菊池 聡規 tttkkk215

◻︎セッション概要(500文字以内)
Agent Engineを使って、ユーザーとの関係性を覚えていて、場面に応じた画像も出せる対話アプリを作ります。題材は恋愛シミュレーション。Memory Bankで長期記憶、Sessionsで会話文脈を管理し、Gemini 3 Pro Imageでシーンに応じたキャラクター画像を生成します。セッションでは、記憶をどう設計するか、画像生成をどう組み込むか、実際に作りながら得た知見を共有します。

◻︎想定オーディエンス・得られる学び(500文字以内)

  • 想定オーディエンス
    • Agent Engineを触ってみたいが、まだ手を動かしていない人
    • Memory BankやSessionsの具体的な使い方を知りたい人
    • LLMと画像生成を組み合わせたアプリに興味がある人

前提知識としては、PythonでのAPI呼び出し経験があれば十分です。Agent EngineやADKの事前知識は不要です。

  • 得られる学び
    • Agent Engineの記憶機構(Sessions / Memory Bank)の役割と使い分け
    • LLMから構造化データを抽出する設計パターン
    • 画像生成を対話アプリに組み込む際の考え方

◻︎セッション詳細(1000文字程度)
本セッションでは、Vertex AI Agent Engineを使ってステートフルな対話アプリを構築する過程で得た知見を共有します。題材として恋愛シミュレーションを採用しますが、ここで扱う技術課題は対話型AIアプリ全般に応用可能です。
まず、記憶の設計について話します。Agent EngineにはSessionsとMemory Bankという2つの記憶機構があります。Sessionsは直近の会話文脈を保持する短期記憶、Memory Bankはセッションをまたいで情報を保持する長期記憶です。恋愛シミュレーションでは、直近の会話の流れはSessionsで、親密度や過去の重要な選択はMemory Bankで管理します。何を短期に入れ、何を長期に入れるかの判断基準を具体例とともに紹介します。
次に、LLMからの構造化出力について話します。キャラクターの応答からセリフと情景描写を分離し、さらに感情やシーン情報をJSON形式で抽出しています。これにより、画像生成のトリガー判定やUI表示の制御が可能になります。
画像生成との連携では、Gemini 3 Pro Imageを使います。毎回画像を生成するのではなく、感情やシーンが変化したときだけトリガーする設計にしています。
デモでは実際に動くアプリを見せながら、これらの仕組みがどう連携しているかを示します。