菊池 聡規
tttkkk215
◻︎セッション概要(500文字以内)
Agent Engineを使って、ユーザーとの関係性を覚えていて、場面に応じた画像も出せる対話アプリを作ります。題材は恋愛シミュレーション。Memory Bankで長期記憶、Sessionsで会話文脈を管理し、Gemini 3 Pro Imageでシーンに応じたキャラクター画像を生成します。セッションでは、記憶をどう設計するか、画像生成をどう組み込むか、実際に作りながら得た知見を共有します。
◻︎想定オーディエンス・得られる学び(500文字以内)
前提知識としては、PythonでのAPI呼び出し経験があれば十分です。Agent EngineやADKの事前知識は不要です。
◻︎セッション詳細(1000文字程度)
本セッションでは、Vertex AI Agent Engineを使ってステートフルな対話アプリを構築する過程で得た知見を共有します。題材として恋愛シミュレーションを採用しますが、ここで扱う技術課題は対話型AIアプリ全般に応用可能です。
まず、記憶の設計について話します。Agent EngineにはSessionsとMemory Bankという2つの記憶機構があります。Sessionsは直近の会話文脈を保持する短期記憶、Memory Bankはセッションをまたいで情報を保持する長期記憶です。恋愛シミュレーションでは、直近の会話の流れはSessionsで、親密度や過去の重要な選択はMemory Bankで管理します。何を短期に入れ、何を長期に入れるかの判断基準を具体例とともに紹介します。
次に、LLMからの構造化出力について話します。キャラクターの応答からセリフと情景描写を分離し、さらに感情やシーン情報をJSON形式で抽出しています。これにより、画像生成のトリガー判定やUI表示の制御が可能になります。
画像生成との連携では、Gemini 3 Pro Imageを使います。毎回画像を生成するのではなく、感情やシーンが変化したときだけトリガーする設計にしています。
デモでは実際に動くアプリを見せながら、これらの仕組みがどう連携しているかを示します。