木村 健人
AoToLog_
AI エージェントは「作って終わり」ではありません。
実際にユーザーに価値を提供し続けるには、推論プロセスを可視化し、回答の質を継続的に評価する「信頼性」の実装が重要です。
本セッションでは、Strands Agents や Amazon Bedrock AgentCore などを活用した AI エージェントを例に、Datadog へのトレース収集や LLM-as-a-Judge による評価の実践方法を解説します。
さらに、Datadog LLM Observability を通じて可視化したトレースと、LLM による自動評価や AI エージェントのトピック分析を通じて、AI エージェントに求められる「信頼性」を考察します。