プロンプトキャッシュ

Prompt Cache

共通するプレフィックス部分の計算結果をAPI側で保持し、次回以降の呼び出しで再利用する仕組み。再計算を省くことで、トークン消費と応答時間を抑えられる。

プロンプトキャッシュとは

プロンプトキャッシュは、長いプロンプトの共通部分に対するLLMの内部計算結果をAPI側で保持し、次回以降の呼び出しで再利用する仕組みです。

Anthropic(Claude)・OpenAI・Google 等の主要AI APIが対応しています。

仕組みと効果

  • 1回目の呼び出し時に、**共通部分(システムプロンプト・参照資料など)**の計算結果をサーバー側で保持
  • 2回目以降は同じプレフィックスの再計算を省略して再利用
  • 直接の効果は トークン消費の削減と応答時間の短縮

トークン消費が減ることのインパクトは、利用プランによって変わります。

  • 従量課金の API: 消費トークンに応じた料金が下がる
  • サブスク / 定額プラン: レート制限・利用上限への到達が遅くなる

割引率・最小キャッシュ長・有効期限などの具体仕様はベンダー・モデル単位で異なるため、利用するAPIのドキュメントで確認してください。

典型的な使いどころ

  • 長いシステムプロンプト(事務所ルール・文体指示)
  • 共通の参照資料(条文・社内マニュアル・FAQ)
  • 長い会話履歴の保持

入力の前半部分が同じなら、後半(実際の質問)だけ毎回新規で送る形になります。

士業事務所での活用

  • 税法条文・通達を資料として先頭に固定 → 毎回送り直さずに済む
  • 事務所特有のドラフト指示(文体・禁止表現)を常時キャッシュ
  • 顧客別FAQボットのシステムプロンプトを使い回し

長文資料を繰り返し参照する士業業務と相性のよい機能で、運用次第でトークン消費の無駄を抑えやすくなります。

注意点

  • キャッシュには有効期限があり、失効すると再計算になる(期限の長さはAPIにより異なる)
  • 変わる部分を先頭に置くとキャッシュが効かない → 固定部分を前、変動部分を後ろに
  • 最小キャッシュ長(トークン数の下限)が設定されているAPIが多い

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す