量子化（Quantization）とは？モデル軽量化の基本技術｜士業AI用語集

量子化とは

量子化（Quantization）は、AIモデル内部の数値（重み）を、より少ないビット数で表現するように圧縮する技術です。これにより、精度をできるだけ保ちながら、メモリ使用量と計算量を大きく削減できます。

仕組み

通常、モデルの重みは**32ビット浮動小数（FP32）**や16ビット（FP16）で保存されています。これを以下のように圧縮します。

8ビット整数（INT8） → サイズが約1/4
4ビット（INT4） → サイズが約1/8

数値の精度は下がりますが、工夫次第で回答品質の低下はわずかに抑えられます。

メリット

VRAM消費が大幅減（大きなモデルを小さなGPUで動かせる）
推論が高速化
オンデバイスAI・エッジAIに載せやすい（スマホ・業務端末で動く）

注意点

極端な圧縮は精度劣化を招く
特に細かいニュアンスが求められるタスクでは、品質低下が体感できる場合あり
用途（検索補助か、重要書面の下書きか）に応じて精度と軽さを天秤にかける必要がある

関連手法

LoRAと組み合わせたQLoRAのように、量子化はファインチューニングの軽量化にも使われます。ローカルでオープンモデルを動かす際には、ほぼ必須の技術です。

士業AIで業務を効率化しませんか？

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で始めるログイン

無料で今すぐ試す