MMLUとは？LLMの汎用知識ベンチマーク｜士業AI用語集

MMLUとは

MMLU（Massive Multitask Language Understanding）は、LLMの汎用的な知識と推論力を測る代表的なベンチマークです。2020年に発表され、以後、LLMの性能比較で必ず参照される指標の一つとして定着しました。

評価される内容

MMLUは、人文・社会・理系・専門職にまたがる多数の分野の4択式問題で構成されています。

数学、物理、化学、生物、コンピュータ科学
歴史、哲学、心理学、経済学
法律、医療、倫理などの専門領域

モデルは問題文と選択肢を読み、正解を選びます。全体の正答率がスコアとなり、分野別スコアも算出されます。

使い所

LLM同士の汎用知識の比較
モデル世代間の進歩の確認
分野別の強み・弱みの把握

AIベンダーは新モデル発表時にMMLUスコアを公開することが多く、モデル選定の一次情報として使われます。

限界・注意点

4択式の選択問題中心のため、長文生成・対話品質は直接測れない
英語中心の設計で、日本語や日本特有の法制度・税制への適合度は別途検証が必要
学習データに**MMLUの問題が混入する「データ汚染」**のリスクが議論されている
スコア＝実務性能ではない

士業視点での見方

MMLUはLLMの基礎体力を示す指標として参考になりますが、日本の税法・法令・労務実務での性能を直接は保証しません。士業の業務で使うなら、日本語・専門領域での実試用や、ドメイン特化ベンチマーク・LLM-as-a-Judgeを併用するのが現実的です。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン

無料で今すぐ試す