ガードレール
Guardrail
望ましくない出力を防ぐ仕組み。プロンプト設計・モデレーション・フィルタリング等を組み合わせて構築する。
ガードレールとは
ガードレールは、AIが望ましくない出力をしないようにするための仕組みです。車の走行をガードレールが守るように、AIの挙動が決められた範囲を外れないようにルール・フィルタ・制約を組み合わせて構築します。
主な構成要素
- システムプロンプト: 「〇〇は回答しない」「不明は不明と答える」などのルール
- 入力フィルタ: 危険・個人情報を含む入力を事前検知
- 出力フィルタ: AIの応答が不適切な場合に差し替え・削除
- モデレーションAI: 専用AIで入出力を点検
- ログ・監視: 異常な挙動を検知する仕組み
- 人間レビュー: 重要な応答は人間チェックを挟む
士業事務所での活用
- 顧客向けチャットボット: 法的助言の断定を避ける、機密情報を要求しない
- 社内AI: 顧客データの取り扱いルールを逸脱しない
- 業務自動化: 重要な送信・確定は人間承認を必須化
- 不適切応答の防止: 差別的表現・誤情報の出力を防ぐ
実装の現実
完璧なガードレールは作れないため、重層的な防御が基本です。
- プロンプト側で制約
- 入力・出力でフィルタ
- 最終的に人間が責任を持つ運用
事務所規模・扱う業務の機密性に応じて、段階的に強化していくのが実用的です。
