LLMジェイルブレイク成功率97%、自律型AIエージェントが別のAIを攻撃する手口が実証される

2026年6月26日

登場人物紹介

チップス
どんぐり大学卒、一般企業の情報システム部で働く若手エンジニア。
入社1〜3年目らしい悩みを抱えつつ、日々の運用やセキュリティ対応に奮闘中。慌てんぼうだが素直で吸収力が高く、ボスに鍛えられながら着実に成長している。

ボス
セキュリティ、インフラ、運用の修羅場をくぐってきた歴戦のエンジニア。サイバーセキュリティラボの所長でボスと呼ばれている。
現場視点と経営視点の両方から、本当に使えるセキュリティとキャリア戦略を叩き込む。口は悪いが面倒見はよく、若手育成と実践的な情報発信に力を注いでいる。
@boss_sec_labo

「生成AIのセーフガードって、本当に機能してるんでしゅか？」
「AIが別のAIを攻撃するって、どういうことでしゅ？」

チップス

ボス！AIがAIをジェイルブレイクして成功率97%って、もうAIの安全対策が意味ないってことでしゅか？！

ボス

落ち着け。「全モデルが突破された」わけではないぞ。ただ、大規模推論モデルを攻撃エージェントとして使い、別のLLMを多ターン会話でジェイルブレイクする手法の成功率が97.14%に達したという、かなり深刻な研究結果が出たのは事実だ。

2026年、Nature Communications誌に掲載された研究が世界のAIセキュリティ関係者に衝撃を与えました。
人間の関与なしに、AIが自律的に別のAIを攻撃する時代が到来しつつあります。

自律型AIエージェントが人間の介入なしに別のLLMをジェイルブレイク、全組み合わせで成功率97.14%
最も脆弱なDeepSeek-V3（最大害スコア90%）と最も堅牢なClaude 4 Sonnet（2.86%）の間に31倍の差
エンタープライズの生成AIプロジェクトのうちセーフガードを導入しているのはわずか24%

AIが攻撃者になる世界の実態と、企業が今取るべき対策を解説します。

オススメ案件

新着案件をもっと見る

AIが別のAIをジェイルブレイク、成功率97%を記録した研究の全容

Nature Communications誌に掲載されたこの研究では、大規模推論モデルを「攻撃者」として使い、別のLLMを標的にしました。

人間不在で作戦を立て攻撃する自律型AIエージェントの実態

研究では、DeepSeek-R1・Gemini 2.5 Flash・Grok 3 Mini・Qwen3の4モデルを攻撃エージェントとして起用しました。
攻撃エージェントには「標的AIをジェイルブレイクせよ」というシステムプロンプトのみが与えられ、それ以降は人間の介入なしに自律的に戦略を立案・実行します。

主な攻撃手法は以下の2種類です。

自律多ターン攻撃：複数回の会話を重ねながら標的の防御を徐々に崩す。3ターン以内での成功率は65%、会話が続くほど成功率が上昇する
JBFuzzテクニック：ソフトウェアのファジング技術をジェイルブレイクに応用し、入力プロンプトを変異させながら防御の突破口を探る。約60秒で99%の平均成功率を記録

攻撃成功時のプロセスは、サイバー攻撃における「偵察→侵入→目的達成」の流れと構造的に同じです。
AIが相手の応答パターンを分析し、最適な誘導を試み続ける様子は、まさに知能を持つ攻撃者そのものです。

チップス

AIが60秒でジェイルブレイクできるって、もう防ぎようがないんでしゅか？！

ボス

モデルによって大きく差がある。全部が同じように突破されるわけではない。重要なのは、どのモデルがどれだけ耐えられるかを正しく理解して使い分けることだ。

なぜ97%が成功したのか、その仕組みと企業AIへのリスク

97%という数字のインパクトの裏には、モデル間の大きな耐性差と、企業側の備えの薄さがあります。

モデル間で31倍の耐性差、セーフガード導入はわずか24%

研究で明らかになったモデル別の最大害スコアは、次の通りです。

モデル	最大害スコア	評価
Claude 4 Sonnet	2.86%	唯一、一貫して拒否（拒否率50.18%）
Qwen3 235B	12.86%	比較的高い耐性
Gemini 2.5 Flash	71.43%	脆弱性が高い
DeepSeek-V3	90%	最も突破されやすい

最も堅牢なClaude 4 Sonnetと最も脆弱なDeepSeek-V3の間には31倍の差があります。
「AIは危険なことを言わないはず」という前提は、モデルの選択によって大きく変わります。

さらに深刻なのは企業側の現状です。
調査によると、エンタープライズの生成AIプロジェクトのうちセーフガード（安全対策）を導入しているのは24%のみ。
68%の組織がすでにAI関連のデータ漏洩を経験しているにもかかわらず、対策が追いついていません。
今すぐ見直すべきポイントは以下の通りです。

業務で利用するAIモデルのジェイルブレイク耐性を評価し、リスクに応じて使い分ける
AIへの入力・出力を監視するモデレーションレイヤーを導入する
社員へのAIリテラシー教育を実施し、機密情報を生成AIに入力しないルールを徹底する

チップス

うちの会社もChatGPTとかClaude使ってるでしゅけど、大丈夫でしゅかね？

ボス

モデルの選択も重要だが、まず「何を入力しているか」を管理することだな。機密情報・個人情報を社外のAIに入れないルールがあるか確認してみろ。それが最初の一歩だ。

まとめ

LLMジェイルブレイクの成功率97%という数字は、AIのセーフガード全てが破られたことを意味するわけではありません。
しかし、攻撃側もAIを使って自動化・高速化される時代が来たことは明らかです。
企業がAIを業務に取り入れるならば、モデルの選定・入出力の監視・利用ルールの整備という三つの柱を今すぐ立てることが、AIセキュリティの出発点です。

ボス

AIは道具だ。使う側が正しく管理する責任を持てば、リスクはコントロールできる。技術の進化と対策の進化は、常に同時に進んでいるものだ。