LLMが生成した文章はどう評価する？ Perlに古きをたずね、最新の動向までを知る by nikkie | トーク | YAPC::Hiroshima 2024 #yapcjapan - fortee.jp

YAPC::Hiroshima 2024

トーク (40分)

LLMが生成した文章はどう評価する？ Perlに古きをたずね、最新の動向までを知る

nikkie ftnext

3

2023年のYAPC::KyotoではChatGPT（LLM）がホットなトピックとして盛り上がった印象です。
Web API経由で使え、文章生成や要約をさまざまなWebアプリケーションに追加できます。

LLMから望む出力を得るにはプロンプト（例：以下の文章を要約してください）が重要です。
一方、開発を進める中で精度改善を狙ってプロンプトは変更されます。
では、プロンプトの変更前後でLLMが生成する文が同じなのかどうか、どのように評価すればよいでしょうか。

このトークでは文章の定性評価の評価指標を紹介していきます。

ROUGE
BLEU
BERTScore
LLM as a judge（最近の研究動向）

Pythonにそれぞれのライブラリがあるのですが、ROUGEやBLEUはPerlのスクリプトがベースという点が興味深く、YAPCでの発表のモチベーションとなっています

fortee © 2026
forteeに関するお問い合わせ: @tomzoh