PPO(Proximal Policy Optimization)
Proximal Policy Optimization
強化学習の定番アルゴリズム。更新幅を制限して安定して学習を進められ、RLHFの実装でも使われる。
PPOとは
PPO(Proximal Policy Optimization)は、強化学習における定番の学習アルゴリズムです。RLHFの実装でしばしば用いられ、ChatGPT等のチューニング工程でも重要な役割を果たしてきました。
仕組みのポイント
強化学習では、方針(ポリシー)を一気に更新しすぎると学習が発散して崩れるという問題があります。PPOは次の工夫でこれを防ぎます。
- 更新幅を制限する(近傍での最適化)
- 一度に大きく変えず、少しずつ改善していく
- 結果として学習が安定し、実装も比較的容易
"Proximal"(近傍)という名前は、この「近いところまでしか動かさない」性質に由来します。
RLHFでの役割
RLHFのパイプラインでは、以下のように使われます。
- 選好データから報酬モデルを学習
- 報酬モデルのスコアが高くなるよう、PPOでLLMを更新
- 人間が好む応答を安定して出せるように調整
DPOとの関係
近年は、強化学習を経由せずに選好データから直接最適化するDPOも普及しています。
- PPO: 実績と品質は高いが、実装と計算が重い
- DPO: 軽量で、PPOに近い効果が得られやすい
用途・規模・使えるリソースに応じて選択される関係です。
