Perplexity（パープレキシティ）とは？言語モデルの評価｜士業AI用語集

Perplexity（パープレキシティ）とは

Perplexityは、言語モデルが次の単語をどれだけ"迷わず"予測できるかを表す指標です。直訳すると「当惑度」。値が低いほどモデルがテキストにうまくフィットしている＝予測が確信に近いことを示します。

言語モデル（LLM・旧来のn-gramモデル等）の内部的な評価指標として広く使われます。

直感的な解釈

Perplexityは、「次の単語を予測するとき、平均して何択で迷っているか」の目安と考えられます。

Perplexity = 2 → 平均2択で迷う状態
Perplexity = 10 → 平均10択で迷う状態
Perplexity = 100 → 100択レベルでぼんやりしている

数値が小さいほど自信を持って予測できているため、同じデータで比較したときに低い方がよいモデルと評価できます。

使い所

事前学習・ファインチューニング中のモデル改善度チェック
同じテストデータでのモデル比較
ドメイン適合の指標（特定分野のテキストで低い値が出れば、その分野にフィットしている）

限界と注意点

絶対値だけでは評価にならない: 同じデータでの比較が前提
実用性との乖離: Perplexityが低くても、ユーザーにとって有用な回答を出すとは限らない
トークナイザー・語彙が違うモデル同士では直接比較できない
事実性・安全性・ハルシネーションとは別軸

現代的な位置づけ

LLM評価はベンチマーク（MMLU等）、人間評価、LLM-as-a-Judgeなど多層化しており、Perplexity単独で品質を語るのは限定的です。内部的なモデル改善の参考指標として使う、くらいの位置づけが実用的です。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン

無料で今すぐ試す