推論(インファレンス)
Inference
学習済みAIモデルに入力を与えて出力を得る処理のこと。API呼び出し時に内部で行われている計算がこれにあたる。
推論(インファレンス)とは
推論は、学習済みAIモデルに入力を与えて出力を得る処理です。ChatGPTに質問して回答が返ってくる、その裏で行われている計算そのものを指します。
英語では Inference。日本語では「推論」「実行」「生成」などと訳されます。
学習との違い
- 学習(トレーニング): モデルを作る工程。膨大なデータと計算資源が必要
- 推論(インファレンス): 作ったモデルを使う工程。学習より軽いが、利用のたびに発生
APIの料金やレスポンス速度は、この推論コストに直結します。
推論を支えるハードウェア
- GPU: 並列計算に強い。LLM推論の主役
- TPU: Google独自のAI専用チップ
- VRAM: モデルを載せるためのメモリ。大型モデルほど必要量が増える
推論速度に関わる要素
- モデルサイズ: パラメータ数が多いほど遅く高価
- 入出力トークン数: 長いほど時間がかかる
- 量子化: 精度を少し落として高速化する技術
- バッチ処理: まとめて処理して効率化
事務所が意識すべき点
- 料金 = 推論コスト。小型モデルと大型モデルを用途で使い分けるとコスト最適化しやすい
- オンプレ導入時は推論環境のGPU要件が導入可否を大きく左右します
