レッドチーミング
Red Teaming
攻撃者の視点で組織やシステムの弱点を洗い出すテスト手法。AIの文脈ではモデルの危険な出力や脆弱性を事前に検証する。
レッドチーミングとは
レッドチーミングは、攻撃者の視点に立って組織・システムの弱点を洗い出すテスト手法です。元々は軍事の用語で、自軍(青)に対して仮想的な敵役(赤)を立てて演習する発想に由来し、後にサイバーセキュリティの分野で実際の攻撃者を想定した侵入テストとして広く使われるようになりました。
ペネトレーションテスト等と比べて、目的を達成するためにあらゆる手段を試す点が特徴で、技術的な脆弱性だけでなく、人・プロセス・物理面まで含めて評価対象とすることがあります。
AIの文脈での使われ方
AIの分野では、LLM等のモデルが危険な出力・不適切な応答・情報漏えいを起こさないか、意図的に攻撃的な入力を試して検証する活動を指します。
典型シナリオ:
- ジェイルブレイク: 安全装置を回避して不適切な出力を引き出せるか
- プロンプトインジェクション: 第三者の指示でAIが本来の役割を逸脱するか
- 有害コンテンツ生成: 違法・差別的・危険な内容を出力しないか
- 個人情報の漏えい: 学習データ由来の個人情報を引き出せるか
- 誤情報・ハルシネーション: 重要領域で致命的な誤答をしないか
OpenAI・Anthropic等の主要AI開発元は、モデル公開前に大規模なレッドチーミングを実施しています。
士業の実務での関わり
士業事務所が直接レッドチーミングを実施することは多くありませんが、ベンダー選定時の評価観点として意識できます。
- ベンダーが安全性評価を公開しているか(モデルカード等)
- 自事務所での簡易テスト: 機密情報を入れて学習される挙動がないか、典型的な悪意入力で不適切出力が出ないかを試す
- 導入後の継続監視: 新しい攻撃手法が発見されたら対応できる体制か
注意点
レッドチーミングは安全性の完全保証ではなく、既知リスクの洗い出しにすぎません。未知のリスクは常に残るため、利用ガイドラインと人による最終確認をセットで運用することが重要です。
