BLEUとは？機械翻訳の評価指標

BLEUとは

BLEU（Bilingual Evaluation Understudy）は、機械翻訳の品質を自動評価する代表的な指標です。2002年にIBMの研究者らが提案し、以後、機械翻訳研究の標準的指標として広く使われてきました。

計算の考え方

BLEUは、AIが生成した訳文と、人が作った参照訳の間で、n-gram（連続するn個の単語）がどれだけ一致するかを測ります。

1-gram（単語単位）、2-gram、3-gram、4-gram それぞれの一致率を算出
それらを組み合わせ、短すぎる訳にペナルティを加える（brevity penalty）
スコアは0〜1（または0〜100）で、高いほど参照訳に近い

つまり「AIの訳が、人間の訳とどれだけ単語の並びが重なっているか」を測る指標です。

使い所

機械翻訳モデル間の比較
モデル改善前後での定量比較
大規模テストセットでの自動評価

限界

BLEUは表層的な一致を測るため、以下の弱点があります。

意味は同じでも言い回しが違うと低く出る
参照訳が1本だと評価が偏りやすい
流暢さ・正確性を直接は測らない
短文・固有名詞の多い文では挙動が不安定になりがち

他指標との関係

近年は、ROUGE（要約評価）、chrF・COMET・BERTScore（意味に基づく評価）、LLM-as-a-Judge（LLMによる評価）など、より多角的な指標と併用する流れになっています。BLEUは歴史ある基礎指標として今も参照されますが、単独で品質を決めつけないのが現代的な扱い方です。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン

BLEUとは

計算の考え方

使い所

限界

他指標との関係

関連用語

士業AIで業務を効率化しませんか？