最近では生成AI・LLM API を活用した機能が増えています。
これらの API は非常に強力ですが、一般的にAPIレイテンシーが大きいです。 それらを使った機能やアプリケーションを提供する場合、ユーザーの待ち時間は当然長くなります。
ユーザーの待ち時間は、ユーザー体験に直結する重要な観点です。 この課題を緩和するために vLLMなどの推論高速化手法は日進月歩で生まれています。
しかし、このようなモデル開発者視点での待ち時間を軽減させるための手法は数多く見かける一方で、それを使ったアプリケーション開発者視点での手法はあまり見かけません。
そこで本セッションでは、アプリケーション開発者視点からユーザーの待ち時間を短くするためのシステム設計のベストプラクティスを紹介します。
ユーザーの待ち時間の最適化という視点から、生成AI時代に求められるユーザー体験のあり方を考察します。