LoRA(低ランク適応)
Low-Rank Adaptation
元のモデル重みを凍結したまま小さな追加層だけを学習する、軽量なファインチューニング手法。
LoRAとは
LoRA(Low-Rank Adaptation)は、元のモデルの重みを凍結したまま、小さな追加層(低ランク行列)だけを学習することで、軽量にファインチューニングを行う手法です。画像生成AIやLLMのカスタマイズで広く使われています。
仕組み
通常のファインチューニングは数十億〜数千億個のパラメータを全部更新するため、膨大なGPUメモリと時間がかかります。LoRAは次の発想で効率化します。
- 元の重みはそのまま凍結
- その横に**ごく小さな「差分行列」**を挿入し、そこだけを学習
- 実質的に更新するパラメータは元の1%以下で済むことも
メリット
- GPUメモリ・学習時間が大幅に削減(民生GPUでも扱える場合がある)
- 学習結果が数十MB〜数百MBの小さなファイルになり差し替えが容易
- 用途別に複数のLoRAを使い分けられる
関連技術
- QLoRA: 量子化と組み合わせ、さらに少ないメモリで学習する発展形
- アダプタ: LoRAと同じく「追加の小さな層だけを学習する」系統の手法
位置づけ
フル規模のファインチューニングは大手が担う領域ですが、LoRAは個人・中小規模でもモデル特化が現実的になったことの象徴的な技術です。士業業務への応用も、オープンモデル+LoRAという構成は選択肢に入りつつあります。
