MMLU

Massive Multitask Language Understanding

人文・理系を横断する多分野の選択式問題でLLMの汎用知識を測る、代表的なベンチマーク。

MMLUとは

MMLU(Massive Multitask Language Understanding)は、LLMの汎用的な知識と推論力を測る代表的なベンチマークです。2020年に発表され、以後、LLMの性能比較で必ず参照される指標の一つとして定着しました。

評価される内容

MMLUは、人文・社会・理系・専門職にまたがる多数の分野4択式問題で構成されています。

  • 数学、物理、化学、生物、コンピュータ科学
  • 歴史、哲学、心理学、経済学
  • 法律、医療、倫理などの専門領域

モデルは問題文と選択肢を読み、正解を選びます。全体の正答率がスコアとなり、分野別スコアも算出されます。

使い所

  • LLM同士の汎用知識の比較
  • モデル世代間の進歩の確認
  • 分野別の強み・弱みの把握

AIベンダーは新モデル発表時にMMLUスコアを公開することが多く、モデル選定の一次情報として使われます。

限界・注意点

  • 4択式の選択問題中心のため、長文生成・対話品質は直接測れない
  • 英語中心の設計で、日本語や日本特有の法制度・税制への適合度は別途検証が必要
  • 学習データに**MMLUの問題が混入する「データ汚染」**のリスクが議論されている
  • スコア=実務性能ではない

士業視点での見方

MMLUはLLMの基礎体力を示す指標として参考になりますが、日本の税法・法令・労務実務での性能を直接は保証しません。士業の業務で使うなら、日本語・専門領域での実試用や、ドメイン特化ベンチマーク・LLM-as-a-Judgeを併用するのが現実的です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す