量子化

Quantization

モデルの数値を低ビットに圧縮して、精度を大きく落とさずにメモリ・計算量を削減する技術。

量子化とは

量子化(Quantization)は、AIモデル内部の数値(重み)を、より少ないビット数で表現するように圧縮する技術です。これにより、精度をできるだけ保ちながら、メモリ使用量と計算量を大きく削減できます。

仕組み

通常、モデルの重みは**32ビット浮動小数(FP32)**や16ビット(FP16)で保存されています。これを以下のように圧縮します。

  • 8ビット整数(INT8) → サイズが約1/4
  • 4ビット(INT4) → サイズが約1/8

数値の精度は下がりますが、工夫次第で回答品質の低下はわずかに抑えられます。

メリット

  • VRAM消費が大幅減(大きなモデルを小さなGPUで動かせる)
  • 推論が高速化
  • オンデバイスAIエッジAIに載せやすい(スマホ・業務端末で動く)

注意点

  • 極端な圧縮は精度劣化を招く
  • 特に細かいニュアンスが求められるタスクでは、品質低下が体感できる場合あり
  • 用途(検索補助か、重要書面の下書きか)に応じて精度と軽さを天秤にかける必要がある

関連手法

LoRAと組み合わせたQLoRAのように、量子化はファインチューニングの軽量化にも使われます。ローカルでオープンモデルを動かす際には、ほぼ必須の技術です。

士業AIで業務を効率化しませんか?

税務・会計・法務の専門AIが、日々の業務をサポートします。
まずは無料プランからお試しください。

無料で今すぐ試す