BLEU
BLEU
機械翻訳の品質を、参照訳と生成文のn-gram一致度で測る自動評価指標。
BLEUとは
BLEU(Bilingual Evaluation Understudy)は、機械翻訳の品質を自動評価する代表的な指標です。2002年にIBMの研究者らが提案し、以後、機械翻訳研究の標準的指標として広く使われてきました。
計算の考え方
BLEUは、AIが生成した訳文と、人が作った参照訳の間で、n-gram(連続するn個の単語)がどれだけ一致するかを測ります。
- 1-gram(単語単位)、2-gram、3-gram、4-gram それぞれの一致率を算出
- それらを組み合わせ、短すぎる訳にペナルティを加える(brevity penalty)
- スコアは0〜1(または0〜100)で、高いほど参照訳に近い
つまり「AIの訳が、人間の訳とどれだけ単語の並びが重なっているか」を測る指標です。
使い所
- 機械翻訳モデル間の比較
- モデル改善前後での定量比較
- 大規模テストセットでの自動評価
限界
BLEUは表層的な一致を測るため、以下の弱点があります。
- 意味は同じでも言い回しが違うと低く出る
- 参照訳が1本だと評価が偏りやすい
- 流暢さ・正確性を直接は測らない
- 短文・固有名詞の多い文では挙動が不安定になりがち
他指標との関係
近年は、ROUGE(要約評価)、chrF・COMET・BERTScore(意味に基づく評価)、LLM-as-a-Judge(LLMによる評価)など、より多角的な指標と併用する流れになっています。BLEUは歴史ある基礎指標として今も参照されますが、単独で品質を決めつけないのが現代的な扱い方です。
