BLEU

BLEU

機械翻訳の品質を、参照訳と生成文のn-gram一致度で測る自動評価指標。

BLEUとは

BLEU(Bilingual Evaluation Understudy)は、機械翻訳の品質を自動評価する代表的な指標です。2002年にIBMの研究者らが提案し、以後、機械翻訳研究の標準的指標として広く使われてきました。

計算の考え方

BLEUは、AIが生成した訳文と、人が作った参照訳の間で、n-gram(連続するn個の単語)がどれだけ一致するかを測ります。

  • 1-gram(単語単位)、2-gram、3-gram、4-gram それぞれの一致率を算出
  • それらを組み合わせ、短すぎる訳にペナルティを加える(brevity penalty)
  • スコアは0〜1(または0〜100)で、高いほど参照訳に近い

つまり「AIの訳が、人間の訳とどれだけ単語の並びが重なっているか」を測る指標です。

使い所

  • 機械翻訳モデル間の比較
  • モデル改善前後での定量比較
  • 大規模テストセットでの自動評価

限界

BLEUは表層的な一致を測るため、以下の弱点があります。

  • 意味は同じでも言い回しが違うと低く出る
  • 参照訳が1本だと評価が偏りやすい
  • 流暢さ・正確性を直接は測らない
  • 短文・固有名詞の多い文では挙動が不安定になりがち

他指標との関係

近年は、ROUGE(要約評価)、chrF・COMET・BERTScore(意味に基づく評価)、LLM-as-a-Judge(LLMによる評価)など、より多角的な指標と併用する流れになっています。BLEUは歴史ある基礎指標として今も参照されますが、単独で品質を決めつけないのが現代的な扱い方です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す