DPO(Direct Preference Optimization)
Direct Preference Optimization
強化学習を使わず、選好データから直接モデルを最適化する軽量なアライメント手法。
DPOとは
DPO(Direct Preference Optimization)は、「この回答のほうが好ましい」という選好データから、強化学習を使わずに直接モデルを最適化する手法です。RLHFの軽量な代替として近年広く使われるようになりました。
仕組み
- 「回答A」と「回答B」のうちどちらが好ましいかのペアデータを用意
- そのペアに対して、好ましい方の確率を上げ、そうでない方を下げるように直接モデルを更新
- 報酬モデルや強化学習(PPO等)が不要
結果として、学習コードはファインチューニングに近い単純さで済みます。
RLHFとの比較
| 観点 | RLHF(PPO) | DPO |
|---|---|---|
| 必要な工程 | 報酬モデル学習+強化学習 | 選好ペアで直接最適化 |
| 実装の複雑さ | 高い | 比較的シンプル |
| 計算コスト | 重い | 軽い |
| 結果の質 | 高品質(実績豊富) | RLHFに近い水準が出やすい |
位置づけ
DPOは**「RLHFの難しさ」というハードルを下げた手法**として、オープンモデルのチューニングで特に普及しています。アライメントを現実的なコストで実装する選択肢として、中小規模の組織にも手が届きやすくなりました。
