ジェイルブレイク
Jailbreak
機器やソフトウェアにかけられた制限を、本来想定されない方法で解除する行為。AIの文脈ではモデルの安全制約を回避する手口を指す。
ジェイルブレイクとは
ジェイルブレイク(jailbreak: 直訳すると「脱獄」)は、メーカーやサービス提供者が設けた制限を、本来想定されない方法で解除する行為を指します。
もともとはスマートフォンやゲーム機のOS制限を外し、非公式アプリやカスタマイズを可能にする行為を指す言葉として広く使われてきました。多くのケースで利用規約違反となり、保証対象外・セキュリティ上の脆弱化などのリスクを伴います。
AIの文脈での使われ方
AIの分野では、LLM等のモデルが守るべき安全制約(例: 違法・有害な情報を出さない、システムプロンプトを開示しない等)を、巧妙な指示で回避させる行為を指します。「答えてはいけない内容を引き出す」のが目的で、ロールプレイの誘導・仮定の状況・多段階の指示などが典型的な手口です。
プロンプトインジェクションが「システムの動作ルールそのものを乗っ取る」のに対し、ジェイルブレイクは「安全設計を突破する」点に焦点があります。
士業事務所での関係
- 顧客向けAIチャットボット: 利用者がジェイルブレイクを試み、不適切な応答を引き出すリスク
- 顧問先企業のAIサービス: 関連事故への法的対応の可能性
- 社内AI: ガードレール設定・モデレーション・ログ監視を前提に運用するのが基本
