LLMが生成した文章はどう評価する? Perlに古きをたずね、最新の動向までを知る by nikkie

YAPC::Hiroshima 2024
トーク (40分)

LLMが生成した文章はどう評価する? Perlに古きをたずね、最新の動向までを知る

nikkie ftnext
3

2023年のYAPC::KyotoではChatGPT(LLM)がホットなトピックとして盛り上がった印象です。
Web API経由で使え、文章生成や要約をさまざまなWebアプリケーションに追加できます。

LLMから望む出力を得るにはプロンプト(例:以下の文章を要約してください)が重要です。
一方、開発を進める中で精度改善を狙ってプロンプトは変更されます。
では、プロンプトの変更前後でLLMが生成する文が同じなのかどうか、どのように評価すればよいでしょうか。

このトークでは文章の定性評価の評価指標を紹介していきます。

  • ROUGE
  • BLEU
  • BERTScore
  • LLM as a judge(最近の研究動向)

Pythonにそれぞれのライブラリがあるのですが、ROUGEやBLEUはPerlのスクリプトがベースという点が興味深く、YAPCでの発表のモチベーションとなっています