ROUGE
ROUGE
要約の品質を参照要約との単語・n-gram一致度で測る自動評価指標。要約タスクで広く使われる。
ROUGEとは
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、要約タスクの品質を自動評価する指標です。AIが生成した要約と、人が作った参照要約を比べ、単語やn-gramの一致度を測ります。
BLEUが翻訳評価の定番なら、ROUGEは要約評価の定番という位置づけです。
主なバリエーション
- ROUGE-N: n-gram単位の一致(ROUGE-1は1単語、ROUGE-2は2単語連続)
- ROUGE-L: 最長共通部分列(Longest Common Subsequence)で、語順の一致を加味
- ROUGE-S: スキップバイグラム(間に他の単語を挟んでも一致を認める)
ROUGEはRecall(再現率)寄りの発想で、「参照要約に含まれる情報を、どれだけ取りこぼさず再現できたか」を重視します(BLEUは Precision 寄り)。
使い所
- 要約モデルの自動評価
- 同じタスクでのモデル比較
- 大規模テストでの一次スクリーニング
限界
- 同義表現・言い換えには弱い(表層的な単語一致が中心)
- 事実の正確性は測れない
- 読みやすさ・論理性は評価対象外
- 参照要約が1本だと、評価の偏りが出やすい
現代的な扱い
近年は要約評価でも、BERTScore(意味埋め込みでの比較)やLLM-as-a-Judge(LLMに採点させる)を併用するのが増えてきました。ROUGEは軽量で再現性が高い一次指標として定着していますが、事実性・有用性の評価は別途必要という前提で使うのが現代的です。
