ROUGE

ROUGE

要約の品質を参照要約との単語・n-gram一致度で測る自動評価指標。要約タスクで広く使われる。

ROUGEとは

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)は、要約タスクの品質を自動評価する指標です。AIが生成した要約と、人が作った参照要約を比べ、単語やn-gramの一致度を測ります。

BLEUが翻訳評価の定番なら、ROUGEは要約評価の定番という位置づけです。

主なバリエーション

  • ROUGE-N: n-gram単位の一致(ROUGE-1は1単語、ROUGE-2は2単語連続)
  • ROUGE-L: 最長共通部分列(Longest Common Subsequence)で、語順の一致を加味
  • ROUGE-S: スキップバイグラム(間に他の単語を挟んでも一致を認める)

ROUGEはRecall(再現率)寄りの発想で、「参照要約に含まれる情報を、どれだけ取りこぼさず再現できたか」を重視します(BLEUは Precision 寄り)。

使い所

  • 要約モデルの自動評価
  • 同じタスクでのモデル比較
  • 大規模テストでの一次スクリーニング

限界

  • 同義表現・言い換えには弱い(表層的な単語一致が中心)
  • 事実の正確性は測れない
  • 読みやすさ・論理性は評価対象外
  • 参照要約が1本だと、評価の偏りが出やすい

現代的な扱い

近年は要約評価でも、BERTScore(意味埋め込みでの比較)やLLM-as-a-Judge(LLMに採点させる)を併用するのが増えてきました。ROUGEは軽量で再現性が高い一次指標として定着していますが、事実性・有用性の評価は別途必要という前提で使うのが現代的です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す