蒸留
Distillation
大きな「教師モデル」の振る舞いを、小さな「生徒モデル」に模倣学習させて軽量化する手法。
蒸留とは
蒸留(Distillation、知識蒸留)は、大きく高性能な「教師モデル」の振る舞いを、小さな「生徒モデル」に模倣学習させることで、軽量かつ高速なモデルを作る手法です。
大きなモデルの「答えそのもの」だけでなく、どれくらいの確信度でどちらを選んだかといった細かな出力分布も教師情報として使うのが特徴です。
なぜ役立つか
- 大規模モデルは精度は高いが、推論が重くコストも高い
- 同じような賢さを保ったままサイズを1/10以下にできることがある
- スマホ・業務端末などのオンデバイスで動かす選択肢になる
量子化との違い
- 量子化: 数値表現のビット数を減らしてモデルを圧縮
- 蒸留: もっと小さな別モデルに知識を移す
- 両者は併用可能で、実運用では組み合わされることが多い
実務への示唆
近年の「軽量だが賢い」と言われるモデル(小さめの商用モデルやオープンモデル)は、多くが裏で蒸留的な工程を経ています。回答速度とコストが重要な業務AIほど、蒸留済みモデルの恩恵を受けています。
