MMLU
Massive Multitask Language Understanding
人文・理系を横断する多分野の選択式問題でLLMの汎用知識を測る、代表的なベンチマーク。
MMLUとは
MMLU(Massive Multitask Language Understanding)は、LLMの汎用的な知識と推論力を測る代表的なベンチマークです。2020年に発表され、以後、LLMの性能比較で必ず参照される指標の一つとして定着しました。
評価される内容
MMLUは、人文・社会・理系・専門職にまたがる多数の分野の4択式問題で構成されています。
- 数学、物理、化学、生物、コンピュータ科学
- 歴史、哲学、心理学、経済学
- 法律、医療、倫理などの専門領域
モデルは問題文と選択肢を読み、正解を選びます。全体の正答率がスコアとなり、分野別スコアも算出されます。
使い所
- LLM同士の汎用知識の比較
- モデル世代間の進歩の確認
- 分野別の強み・弱みの把握
AIベンダーは新モデル発表時にMMLUスコアを公開することが多く、モデル選定の一次情報として使われます。
限界・注意点
- 4択式の選択問題中心のため、長文生成・対話品質は直接測れない
- 英語中心の設計で、日本語や日本特有の法制度・税制への適合度は別途検証が必要
- 学習データに**MMLUの問題が混入する「データ汚染」**のリスクが議論されている
- スコア=実務性能ではない
士業視点での見方
MMLUはLLMの基礎体力を示す指標として参考になりますが、日本の税法・法令・労務実務での性能を直接は保証しません。士業の業務で使うなら、日本語・専門領域での実試用や、ドメイン特化ベンチマーク・LLM-as-a-Judgeを併用するのが現実的です。
