RLHF(人間フィードバックによる強化学習)
Reinforcement Learning from Human Feedback
人間の「こちらの回答がより良い」という評価を学習信号にして、AIの応答品質を人間の好みに近づける手法。
RLHFとは
RLHF(Reinforcement Learning from Human Feedback)は、人間の「こちらの回答のほうが良い」という評価を学習信号にして、AIの応答品質を人間の好みに近づける手法です。ChatGPT以降の対話型AIで広く使われています。
仕組み
- 複数の回答候補をモデルに生成させる
- 人間(評価者)がどちらが好ましいかをランク付け
- その評価をもとに報酬モデルを学習
- 報酬モデルのスコアが高くなる方向に、**強化学習(PPO等)**でモデルを更新
これにより、単に正解を返すだけでなく、丁寧さ・安全性・指示順守といった「人間が望む質」を反映できます。
何が変わるか
- 有害・不適切な応答を抑制(アライメントの実現)
- 冗長さ・あいまいさを削減
- 指示への素直さが向上
DPOとの違い
近年は、強化学習を使わずに直接選好データから最適化する**DPO(Direct Preference Optimization)**も普及し、より軽量に同様の効果を得られるようになっています。
士業文脈での示唆
業務特化AIを内製する場合、「どちらの回答が専門家として適切か」を士業有資格者が評価する形でRLHF的な調整を行うと、事務所の基準に沿った応答に近づけられます。ただし大規模な評価データが必要なため、まずはプロンプト設計とRAGが現実的な選択肢です。
