プロンプトキャッシュ
Prompt Cache
共通するプレフィックス部分の計算結果をAPI側で保持し、次回以降の呼び出しで再利用する仕組み。再計算を省くことで、トークン消費と応答時間を抑えられる。
プロンプトキャッシュとは
プロンプトキャッシュは、長いプロンプトの共通部分に対するLLMの内部計算結果をAPI側で保持し、次回以降の呼び出しで再利用する仕組みです。
Anthropic(Claude)・OpenAI・Google 等の主要AI APIが対応しています。
仕組みと効果
- 1回目の呼び出し時に、**共通部分(システムプロンプト・参照資料など)**の計算結果をサーバー側で保持
- 2回目以降は同じプレフィックスの再計算を省略して再利用
- 直接の効果は トークン消費の削減と応答時間の短縮
トークン消費が減ることのインパクトは、利用プランによって変わります。
- 従量課金の API: 消費トークンに応じた料金が下がる
- サブスク / 定額プラン: レート制限・利用上限への到達が遅くなる
割引率・最小キャッシュ長・有効期限などの具体仕様はベンダー・モデル単位で異なるため、利用するAPIのドキュメントで確認してください。
典型的な使いどころ
- 長いシステムプロンプト(事務所ルール・文体指示)
- 共通の参照資料(条文・社内マニュアル・FAQ)
- 長い会話履歴の保持
入力の前半部分が同じなら、後半(実際の質問)だけ毎回新規で送る形になります。
士業事務所での活用
- 税法条文・通達を資料として先頭に固定 → 毎回送り直さずに済む
- 事務所特有のドラフト指示(文体・禁止表現)を常時キャッシュ
- 顧客別FAQボットのシステムプロンプトを使い回し
長文資料を繰り返し参照する士業業務と相性のよい機能で、運用次第でトークン消費の無駄を抑えやすくなります。
注意点
- キャッシュには有効期限があり、失効すると再計算になる(期限の長さはAPIにより異なる)
- 変わる部分を先頭に置くとキャッシュが効かない → 固定部分を前、変動部分を後ろに
- 最小キャッシュ長(トークン数の下限)が設定されているAPIが多い
