ROUGEとは？要約の評価指標

ROUGEとは

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）は、要約タスクの品質を自動評価する指標です。AIが生成した要約と、人が作った参照要約を比べ、単語やn-gramの一致度を測ります。

BLEUが翻訳評価の定番なら、ROUGEは要約評価の定番という位置づけです。

主なバリエーション

ROUGE-N: n-gram単位の一致（ROUGE-1は1単語、ROUGE-2は2単語連続）
ROUGE-L: 最長共通部分列（Longest Common Subsequence）で、語順の一致を加味
ROUGE-S: スキップバイグラム（間に他の単語を挟んでも一致を認める）

ROUGEはRecall（再現率）寄りの発想で、「参照要約に含まれる情報を、どれだけ取りこぼさず再現できたか」を重視します（BLEUは Precision 寄り）。

使い所

要約モデルの自動評価
同じタスクでのモデル比較
大規模テストでの一次スクリーニング

限界

同義表現・言い換えには弱い（表層的な単語一致が中心）
事実の正確性は測れない
読みやすさ・論理性は評価対象外
参照要約が1本だと、評価の偏りが出やすい

現代的な扱い

近年は要約評価でも、BERTScore（意味埋め込みでの比較）やLLM-as-a-Judge（LLMに採点させる）を併用するのが増えてきました。ROUGEは軽量で再現性が高い一次指標として定着していますが、事実性・有用性の評価は別途必要という前提で使うのが現代的です。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン

ROUGEとは

主なバリエーション

使い所

限界

現代的な扱い

関連用語

士業AIで業務を効率化しませんか？