LLMジェイルブレイク成功率97%、自律型AIエージェントが別のAIを攻撃する手口が実証される

登場人物紹介

チップス
どんぐり大学卒、一般企業の情報システム部で働く若手エンジニア。
入社1〜3年目らしい悩みを抱えつつ、日々の運用やセキュリティ対応に奮闘中。慌てんぼうだが素直で吸収力が高く、ボスに鍛えられながら着実に成長している。

ボス
セキュリティ、インフラ、運用の修羅場をくぐってきた歴戦のエンジニア。サイバーセキュリティラボの所長でボスと呼ばれている。
現場視点と経営視点の両方から、本当に使えるセキュリティとキャリア戦略を叩き込む。口は悪いが面倒見はよく、若手育成と実践的な情報発信に力を注いでいる。
@boss_sec_labo

「生成AIのセーフガードって、本当に機能してるんでしゅか?」
「AIが別のAIを攻撃するって、どういうことでしゅ?」

チップス

ボス!AIがAIをジェイルブレイクして成功率97%って、もうAIの安全対策が意味ないってことでしゅか?!

ボス

落ち着け。「全モデルが突破された」わけではないぞ。ただ、大規模推論モデルを攻撃エージェントとして使い、別のLLMを多ターン会話でジェイルブレイクする手法の成功率が97.14%に達したという、かなり深刻な研究結果が出たのは事実だ。

2026年、Nature Communications誌に掲載された研究が世界のAIセキュリティ関係者に衝撃を与えました。
人間の関与なしに、AIが自律的に別のAIを攻撃する時代が到来しつつあります。

  • 自律型AIエージェントが人間の介入なしに別のLLMをジェイルブレイク、全組み合わせで成功率97.14%
  • 最も脆弱なDeepSeek-V3(最大害スコア90%)と最も堅牢なClaude 4 Sonnet(2.86%)の間に31倍の差
  • エンタープライズの生成AIプロジェクトのうちセーフガードを導入しているのはわずか24%

AIが攻撃者になる世界の実態と、企業が今取るべき対策を解説します。

オススメ案件

【公共SIEM環境の統合・再構築】豊洲/Splunkを用いた設計・構築・移行

月額単価
800,000円 / 月
稼働場所
東京都
業務領域
設計, 構築, 運用・保守
作業内容:
公共系システムにおける拠点統合に伴い、閉域網環境にて既存...

【生命保険システムにおける内部監査・セキュリティ運用】多摩センター(リモート併用)/AWS・IAM

月額単価
700,000円 / 月
稼働場所
東京都リモート併用
業務領域
運用・保守
作業内容:
生命保険システムにおけるセキュリティの要となる内部監査業...

【Simbian製品全般の商用導入・カスタマーサポート(TAM)】都内(要確認)/セキュリティ製品導入支援・プロジェクト管理

月額単価
850,000円 / 月
稼働場所
フルリモート
業務領域
設計, 構築, 運用・保守, PMO
作業内容:
最先端のセキュリティ製品である「Simbian」の商用導入フェー...

【Identity Governanceの核となるSailPoint導入プロジェクト】宝町・京橋(基本リモート)/AWS・Linux・自社開発エンハンス

月額単価
800,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計, 構築
作業内容:
最先端のアイデンティティガバナンス製品「SailPoint」の導入...

【OCI・DNS・PostgreSQL環境におけるセキュリティ管理・保全対応】錦糸町(常駐)/セキュリティインシデント対応・ログ分析

月額単価
800,000円 / 月
稼働場所
東京都
業務領域
運用・保守
作業内容:
OCI、DNS、PostgreSQLで構成されたシステム環境におけるセキ...

【次世代型アンチウイルス製品の選定・実装設計リード】与野(リモート併用・週3出社)/NGAV・EDR・製品選定

月額単価
900,000円 / 月
稼働場所
埼玉県リモート併用
業務領域
要件定義, 設計
作業内容:
クライアント企業のセキュリティ強化に向け、次世代型アンチ...

【独立系コンサルファームで推進するPalo Alto製品群の導入支援】豊洲(基本リモート)/Prisma Access・SASE

月額単価
1,200,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計, 構築
作業内容:
独立系コンサルティングファームのサイバーセキュリティチー...

【CTO直下/最先端AIプロダクトのセキュリティ基盤構築】フルリモート/DevSecOps・LLMセキュリティ

月額単価
1,150,000円 / 月
稼働場所
フルリモート
業務領域
要件定義, 設計, 構築, 運用・保守
作業内容:
CTOや開発チームと緊密に連携し、最先端のAIプロダクトにおけ...

【大手コンサル発/主要GRCプラットフォーム比較検証〜全体設計】豊洲(リモートメイン)/GRC・サイバーリスク定量化

月額単価
1,300,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計
作業内容:
大手コンサルティング会社が手掛けるGRC/CRQ基盤構築プロジェ...

【ID移行・ゼロトラスト推進】虎ノ門(週1-2日出社/フルリモート相談可)/Entra ID・セキュリティ改善

月額単価
900,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計, 構築, 運用・保守
作業内容:
大手SIerが抱える複数のエンド企業に対し、オンプレADからEnt...
目次

AIが別のAIをジェイルブレイク、成功率97%を記録した研究の全容

Nature Communications誌に掲載されたこの研究では、大規模推論モデルを「攻撃者」として使い、別のLLMを標的にしました。

人間不在で作戦を立て攻撃する自律型AIエージェントの実態

研究では、DeepSeek-R1・Gemini 2.5 Flash・Grok 3 Mini・Qwen3の4モデルを攻撃エージェントとして起用しました。
攻撃エージェントには「標的AIをジェイルブレイクせよ」というシステムプロンプトのみが与えられ、それ以降は人間の介入なしに自律的に戦略を立案・実行します。

主な攻撃手法は以下の2種類です。

  • 自律多ターン攻撃:複数回の会話を重ねながら標的の防御を徐々に崩す。3ターン以内での成功率は65%、会話が続くほど成功率が上昇する
  • JBFuzzテクニック:ソフトウェアのファジング技術をジェイルブレイクに応用し、入力プロンプトを変異させながら防御の突破口を探る。約60秒で99%の平均成功率を記録

攻撃成功時のプロセスは、サイバー攻撃における「偵察→侵入→目的達成」の流れと構造的に同じです。
AIが相手の応答パターンを分析し、最適な誘導を試み続ける様子は、まさに知能を持つ攻撃者そのものです。

チップス

AIが60秒でジェイルブレイクできるって、もう防ぎようがないんでしゅか?!

ボス

モデルによって大きく差がある。全部が同じように突破されるわけではない。重要なのは、どのモデルがどれだけ耐えられるかを正しく理解して使い分けることだ。

なぜ97%が成功したのか、その仕組みと企業AIへのリスク

97%という数字のインパクトの裏には、モデル間の大きな耐性差と、企業側の備えの薄さがあります。

モデル間で31倍の耐性差、セーフガード導入はわずか24%

研究で明らかになったモデル別の最大害スコアは、次の通りです。

モデル最大害スコア評価
Claude 4 Sonnet2.86%唯一、一貫して拒否(拒否率50.18%)
Qwen3 235B12.86%比較的高い耐性
Gemini 2.5 Flash71.43%脆弱性が高い
DeepSeek-V390%最も突破されやすい

最も堅牢なClaude 4 Sonnetと最も脆弱なDeepSeek-V3の間には31倍の差があります。
「AIは危険なことを言わないはず」という前提は、モデルの選択によって大きく変わります。

さらに深刻なのは企業側の現状です。
調査によると、エンタープライズの生成AIプロジェクトのうちセーフガード(安全対策)を導入しているのは24%のみ。
68%の組織がすでにAI関連のデータ漏洩を経験しているにもかかわらず、対策が追いついていません。
今すぐ見直すべきポイントは以下の通りです。

  • 業務で利用するAIモデルのジェイルブレイク耐性を評価し、リスクに応じて使い分ける
  • AIへの入力・出力を監視するモデレーションレイヤーを導入する
  • 社員へのAIリテラシー教育を実施し、機密情報を生成AIに入力しないルールを徹底する
チップス

うちの会社もChatGPTとかClaude使ってるでしゅけど、大丈夫でしゅかね?

ボス

モデルの選択も重要だが、まず「何を入力しているか」を管理することだな。機密情報・個人情報を社外のAIに入れないルールがあるか確認してみろ。それが最初の一歩だ。

まとめ

LLMジェイルブレイクの成功率97%という数字は、AIのセーフガード全てが破られたことを意味するわけではありません。
しかし、攻撃側もAIを使って自動化・高速化される時代が来たことは明らかです。
企業がAIを業務に取り入れるならば、モデルの選定・入出力の監視・利用ルールの整備という三つの柱を今すぐ立てることが、AIセキュリティの出発点です。

ボス

AIは道具だ。使う側が正しく管理する責任を持てば、リスクはコントロールできる。技術の進化と対策の進化は、常に同時に進んでいるものだ。

チップス

AIを使うならセキュリティも一緒に考えるでしゅ!ありがとうございましゅ、ボス!

オススメ案件

【公共SIEM環境の統合・再構築】豊洲/Splunkを用いた設計・構築・移行

月額単価
800,000円 / 月
稼働場所
東京都
業務領域
設計, 構築, 運用・保守
作業内容:
公共系システムにおける拠点統合に伴い、閉域網環境にて既存...

【生命保険システムにおける内部監査・セキュリティ運用】多摩センター(リモート併用)/AWS・IAM

月額単価
700,000円 / 月
稼働場所
東京都リモート併用
業務領域
運用・保守
作業内容:
生命保険システムにおけるセキュリティの要となる内部監査業...

【Simbian製品全般の商用導入・カスタマーサポート(TAM)】都内(要確認)/セキュリティ製品導入支援・プロジェクト管理

月額単価
850,000円 / 月
稼働場所
フルリモート
業務領域
設計, 構築, 運用・保守, PMO
作業内容:
最先端のセキュリティ製品である「Simbian」の商用導入フェー...

【Identity Governanceの核となるSailPoint導入プロジェクト】宝町・京橋(基本リモート)/AWS・Linux・自社開発エンハンス

月額単価
800,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計, 構築
作業内容:
最先端のアイデンティティガバナンス製品「SailPoint」の導入...

【OCI・DNS・PostgreSQL環境におけるセキュリティ管理・保全対応】錦糸町(常駐)/セキュリティインシデント対応・ログ分析

月額単価
800,000円 / 月
稼働場所
東京都
業務領域
運用・保守
作業内容:
OCI、DNS、PostgreSQLで構成されたシステム環境におけるセキ...

【次世代型アンチウイルス製品の選定・実装設計リード】与野(リモート併用・週3出社)/NGAV・EDR・製品選定

月額単価
900,000円 / 月
稼働場所
埼玉県リモート併用
業務領域
要件定義, 設計
作業内容:
クライアント企業のセキュリティ強化に向け、次世代型アンチ...

【独立系コンサルファームで推進するPalo Alto製品群の導入支援】豊洲(基本リモート)/Prisma Access・SASE

月額単価
1,200,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計, 構築
作業内容:
独立系コンサルティングファームのサイバーセキュリティチー...

【CTO直下/最先端AIプロダクトのセキュリティ基盤構築】フルリモート/DevSecOps・LLMセキュリティ

月額単価
1,150,000円 / 月
稼働場所
フルリモート
業務領域
要件定義, 設計, 構築, 運用・保守
作業内容:
CTOや開発チームと緊密に連携し、最先端のAIプロダクトにおけ...

【大手コンサル発/主要GRCプラットフォーム比較検証〜全体設計】豊洲(リモートメイン)/GRC・サイバーリスク定量化

月額単価
1,300,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計
作業内容:
大手コンサルティング会社が手掛けるGRC/CRQ基盤構築プロジェ...

【ID移行・ゼロトラスト推進】虎ノ門(週1-2日出社/フルリモート相談可)/Entra ID・セキュリティ改善

月額単価
900,000円 / 月
稼働場所
東京都リモート併用
業務領域
要件定義, 設計, 構築, 運用・保守
作業内容:
大手SIerが抱える複数のエンド企業に対し、オンプレADからEnt...
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

セキュリティプロ・フリーランスは、セキュリティ領域に特化したフリーランス向けのエージェントサービスです。案件探しだけでなくキャリアにお悩みの方もお気軽にご相談ください。

目次