強化学習
Reinforcement Learning
試行錯誤と報酬を通じて最適な行動を学ぶ機械学習の方式。ゲームAI、ロボット制御、RLHFなどで活用。
強化学習とは
強化学習(Reinforcement Learning/RL)は、試行錯誤と報酬を通じて、最適な行動を学ぶ機械学習の方式です。「正解を教える」のではなく、「行動の結果として得られる報酬」によって、より良い行動を選べるように学習していきます。
代表的な応用
- ゲームAI: 囲碁(AlphaGo)・ゲームの自動プレイ
- ロボット制御: 動き方の最適化
- 自動運転: 経路選択・運転判断
- 広告配信: どの広告を誰に見せるかの最適化
- LLMの調整: RLHF(人間フィードバックによる強化学習)
LLM との関係
LLMが「人間の意図に沿った応答」をできるように仕立てる段階で、強化学習が中心的な役割を果たします。
- RLHF: 人間の好みを報酬として学習
- PPO・DPO: RLHFで使われる具体的アルゴリズム
ChatGPT や Claude の応答品質の多くは、この強化学習フェーズで仕上げられています。
士業業務との関係
直接触ることはありませんが、AIエージェントが自律的に行動する仕組みの裏側には強化学習の考え方があります。概念として知っておくと、AIエージェントの挙動を理解しやすくなります。
