Perplexity(パープレキシティ)
Perplexity
言語モデルが次の単語をどれだけ"迷わず"予測できるかを表す指標。低いほど、テキストに自然にフィットしている。
Perplexity(パープレキシティ)とは
Perplexityは、言語モデルが次の単語をどれだけ"迷わず"予測できるかを表す指標です。直訳すると「当惑度」。値が低いほどモデルがテキストにうまくフィットしている=予測が確信に近いことを示します。
言語モデル(LLM・旧来のn-gramモデル等)の内部的な評価指標として広く使われます。
直感的な解釈
Perplexityは、「次の単語を予測するとき、平均して何択で迷っているか」の目安と考えられます。
- Perplexity = 2 → 平均2択で迷う状態
- Perplexity = 10 → 平均10択で迷う状態
- Perplexity = 100 → 100択レベルでぼんやりしている
数値が小さいほど自信を持って予測できているため、同じデータで比較したときに低い方がよいモデルと評価できます。
使い所
- 事前学習・ファインチューニング中のモデル改善度チェック
- 同じテストデータでのモデル比較
- ドメイン適合の指標(特定分野のテキストで低い値が出れば、その分野にフィットしている)
限界と注意点
- 絶対値だけでは評価にならない: 同じデータでの比較が前提
- 実用性との乖離: Perplexityが低くても、ユーザーにとって有用な回答を出すとは限らない
- トークナイザー・語彙が違うモデル同士では直接比較できない
- 事実性・安全性・ハルシネーションとは別軸
現代的な位置づけ
LLM評価はベンチマーク(MMLU等)、人間評価、LLM-as-a-Judgeなど多層化しており、Perplexity単独で品質を語るのは限定的です。内部的なモデル改善の参考指標として使う、くらいの位置づけが実用的です。
