Agent Engine × Gemini 3 Imageで作るステートフル対話アプリ

Google Cloud Community Tech Surge 2026 presented by Jagu'e'r

公募セッション（30分）

配信会場（東京）

Agent Engine × Gemini 3 Imageで作るステートフル対話アプリ

菊池聡規 tttkkk215

◻︎セッション概要（500文字以内）
Agent Engineを使って、ユーザーとの関係性を覚えていて、場面に応じた画像も出せる対話アプリを作ります。題材は恋愛シミュレーション。Memory Bankで長期記憶、Sessionsで会話文脈を管理し、Gemini 3 Pro Imageでシーンに応じたキャラクター画像を生成します。セッションでは、記憶をどう設計するか、画像生成をどう組み込むか、実際に作りながら得た知見を共有します。

◻︎想定オーディエンス・得られる学び（500文字以内）

想定オーディエンス
- Agent Engineを触ってみたいが、まだ手を動かしていない人
- Memory BankやSessionsの具体的な使い方を知りたい人
- LLMと画像生成を組み合わせたアプリに興味がある人

前提知識としては、PythonでのAPI呼び出し経験があれば十分です。Agent EngineやADKの事前知識は不要です。

得られる学び
- Agent Engineの記憶機構（Sessions / Memory Bank）の役割と使い分け
- LLMから構造化データを抽出する設計パターン
- 画像生成を対話アプリに組み込む際の考え方

◻︎セッション詳細（1000文字程度）
本セッションでは、Vertex AI Agent Engineを使ってステートフルな対話アプリを構築する過程で得た知見を共有します。題材として恋愛シミュレーションを採用しますが、ここで扱う技術課題は対話型AIアプリ全般に応用可能です。
まず、記憶の設計について話します。Agent EngineにはSessionsとMemory Bankという2つの記憶機構があります。Sessionsは直近の会話文脈を保持する短期記憶、Memory Bankはセッションをまたいで情報を保持する長期記憶です。恋愛シミュレーションでは、直近の会話の流れはSessionsで、親密度や過去の重要な選択はMemory Bankで管理します。何を短期に入れ、何を長期に入れるかの判断基準を具体例とともに紹介します。
次に、LLMからの構造化出力について話します。キャラクターの応答からセリフと情景描写を分離し、さらに感情やシーン情報をJSON形式で抽出しています。これにより、画像生成のトリガー判定やUI表示の制御が可能になります。
画像生成との連携では、Gemini 3 Pro Imageを使います。毎回画像を生成するのではなく、感情やシーンが変化したときだけトリガーする設計にしています。
デモでは実際に動くアプリを見せながら、これらの仕組みがどう連携しているかを示します。

fortee © 2025
forteeに関するお問い合わせ: @tomzoh

Agent Engine × Gemini 3 Imageで作るステートフル対話アプリ by 菊池 聡規

Google Cloud Community Tech Surge 2026 presented by Jagu'e'r

Agent Engine × Gemini 3 Imageで作るステートフル対話アプリ

ログインが必要です

Agent Engine × Gemini 3 Imageで作るステートフル対話アプリ by 菊池聡規