アライメント
Alignment
AIの振る舞いを人間の意図・価値観・安全性に合わせる取り組みと、その技術的手法の総称。
アライメントとは
アライメント(Alignment)は、AIの振る舞いを人間の意図・価値観・安全性に沿うように合わせる取り組み、およびその技術的手法の総称です。「ただ賢い」だけでなく、「望ましい形で賢い」AIを作るための分野です。
なぜ必要か
大規模モデルは、指示を表面的に最適化しすぎると、意図しない挙動を示すことがあります。
- 有害情報や差別的表現の出力
- 指示を取り違えて暴走した提案
- ルールの"抜け穴"を突くような応答(ジェイルブレイク)
これらを抑え、人間が望む使い方の範囲に収めるのがアライメントの目的です。
主な手法
- インストラクションチューニング: 指示に素直に従う能力を育成
- RLHF / DPO: 人間の選好データに基づき応答品質を調整
- ガードレール: 推論時に不適切出力を検知・抑止
- レッドチーミング: 攻撃的プロンプトで安全性を検証
士業文脈での意味
士業業務では、倫理・守秘義務・法令遵守が前提になります。業務特化AIを導入・開発する際、単なる精度だけでなく「事務所として許容できる応答範囲に収まっているか」を設計・検証すること自体が、実質的なアライメント作業と言えます。
