Perplexity(パープレキシティ)

Perplexity

言語モデルが次の単語をどれだけ"迷わず"予測できるかを表す指標。低いほど、テキストに自然にフィットしている。

Perplexity(パープレキシティ)とは

Perplexityは、言語モデルが次の単語をどれだけ"迷わず"予測できるかを表す指標です。直訳すると「当惑度」。値が低いほどモデルがテキストにうまくフィットしている=予測が確信に近いことを示します。

言語モデル(LLM・旧来のn-gramモデル等)の内部的な評価指標として広く使われます。

直感的な解釈

Perplexityは、「次の単語を予測するとき、平均して何択で迷っているか」の目安と考えられます。

  • Perplexity = 2 → 平均2択で迷う状態
  • Perplexity = 10 → 平均10択で迷う状態
  • Perplexity = 100 → 100択レベルでぼんやりしている

数値が小さいほど自信を持って予測できているため、同じデータで比較したときに低い方がよいモデルと評価できます。

使い所

  • 事前学習・ファインチューニング中のモデル改善度チェック
  • 同じテストデータでのモデル比較
  • ドメイン適合の指標(特定分野のテキストで低い値が出れば、その分野にフィットしている)

限界と注意点

  • 絶対値だけでは評価にならない: 同じデータでの比較が前提
  • 実用性との乖離: Perplexityが低くても、ユーザーにとって有用な回答を出すとは限らない
  • トークナイザー・語彙が違うモデル同士では直接比較できない
  • 事実性・安全性・ハルシネーションとは別軸

現代的な位置づけ

LLM評価はベンチマーク(MMLU等)、人間評価、LLM-as-a-Judgeなど多層化しており、Perplexity単独で品質を語るのは限定的です。内部的なモデル改善の参考指標として使う、くらいの位置づけが実用的です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す