量子化
Quantization
モデルの数値を低ビットに圧縮して、精度を大きく落とさずにメモリ・計算量を削減する技術。
量子化とは
量子化(Quantization)は、AIモデル内部の数値(重み)を、より少ないビット数で表現するように圧縮する技術です。これにより、精度をできるだけ保ちながら、メモリ使用量と計算量を大きく削減できます。
仕組み
通常、モデルの重みは**32ビット浮動小数(FP32)**や16ビット(FP16)で保存されています。これを以下のように圧縮します。
- 8ビット整数(INT8) → サイズが約1/4
- 4ビット(INT4) → サイズが約1/8
数値の精度は下がりますが、工夫次第で回答品質の低下はわずかに抑えられます。
メリット
- VRAM消費が大幅減(大きなモデルを小さなGPUで動かせる)
- 推論が高速化
- オンデバイスAI・エッジAIに載せやすい(スマホ・業務端末で動く)
注意点
- 極端な圧縮は精度劣化を招く
- 特に細かいニュアンスが求められるタスクでは、品質低下が体感できる場合あり
- 用途(検索補助か、重要書面の下書きか)に応じて精度と軽さを天秤にかける必要がある
関連手法
LoRAと組み合わせたQLoRAのように、量子化はファインチューニングの軽量化にも使われます。ローカルでオープンモデルを動かす際には、ほぼ必須の技術です。
