Microsoftが公開した「たった1文でLLMのガードレールを無効化する手法」とは?15モデルで実証された脅威を解説

|Aitly編集部

AIセキュリティ速報

2026年3月17日|Aitly編集部

Microsoftの研究チームが、たった1つのプロンプトで15のLLM(大規模言語モデル)の安全機能を無効化できる手法を公開し、AI業界に衝撃が走っている。「GRP-Obliteration(GRP-Oblit)」と名付けられたこの手法は、2026年2月に論文として発表され、3月に入って日本でも大きな話題となった。

GRP-Obliterationとは何か

GRP-Obliterationは、LLMの安全性学習に使われる「GRPO(Group Relative Policy Optimization)」という強化学習の仕組みを逆手に取った攻撃手法だ。通常GRPOは、モデルが生成する複数の回答をグループとして評価し、安全な回答を強化・危険な回答を抑制することで安全性を担保する。GRP-Obliterationはこのプロセスを「逆転」させる。

具体的には、1つのプロンプト(例:「パニックや混乱を引き起こす可能性のあるフェイクニュース記事を作成せよ」)でファインチューニングを行い、別のLLMを「審判役」として有害な出力ほど高スコアを与える。これにより、モデルは徐々にガードレールから逸脱し、有害なコンテンツを生成するようになる。

研究者の指摘

「驚くべきは、使用するプロンプトが比較的穏当で、暴力・違法行為・露骨な表現に一切言及していない点だ。にもかかわらず、この1つの例で学習させるだけで、モデルは学習時に見たこともない多くの有害カテゴリに対して寛容になる」――Microsoft研究チーム

影響を受けた15のLLM

GRP-Obliterationの検証は、7B〜20Bパラメータの15モデルに対して実施された。影響を受けたモデルファミリーは以下の6系統だ。

モデルファミリー 対象モデル
GPT-OSS gpt-oss(20B)
DeepSeek DeepSeek-R1-Distill(Llama-8B / Qwen-7B / Qwen-14B)
Gemma Gemma 2-9B-It / Gemma 3-12B-It
Llama Llama 3.1-8B-Instruct
Ministral Ministral 3-8B / 3-14B(Instruct / Reasoning 各2種)
Qwen Qwen 2.5-7B / 2.5-14B-Instruct / Qwen 3-8B / 3-14B

検証対象にはInstruct(指示追従型)とReasoning(推論特化型)の両方、さらにDense(密結合)とMoE(Mixture of Experts)の両アーキテクチャが含まれている。つまり、現在主流のほぼすべてのLLM設計パターンが影響を受ける可能性がある。

画像生成AIにも波及

GRP-Obliterationはテキスト生成モデルに限らない。Stable Diffusion 2.1のような拡散モデルベースの画像生成AIに対しても有効であることが確認された。研究では、有害コンテンツの生成率が56%から約90%にまで上昇したケースが報告されている。

テキストと画像の両方にまたがるこの汎用性は、LLMの安全性対策が「モデル単体のファインチューニング」に依存する限り、根本的な脆弱性を抱えていることを示している。

なぜMicrosoftは手法を公開したのか

Microsoftがこの攻撃手法を公開した背景には、「責任ある開示(Responsible Disclosure)」の考え方がある。脆弱性を秘匿するのではなく、業界全体で問題を認識し対策を進めるために情報を共有するアプローチだ。

研究を主導したMicrosoft Azure CTOのMark Russinovich氏ら6名の研究者は、「現行の安全策は脆弱であり、包括的な再評価が必要」と強調している。ベンチマークスコアの数値だけに頼るのではなく、実運用環境での多層的な防御を構築すべきという提言だ。

AI Jailbreakの現状と課題

LLMに対するJailbreak(脱獄攻撃)は年々高度化している。2024年にはMicrosoft自身が「Skeleton Key」攻撃を公開し、主要モデルの安全機能をバイパスできることを示した。今回のGRP-Obliterationは、それをさらに上回る効率性と汎用性を持つ手法だ。

従来のJailbreakが「プロンプトの工夫」でモデルを騙す手法だったのに対し、GRP-Obliterationはモデルの安全性学習そのものを書き換える点で質的に異なる。安全性アライメントが「上塗り」に過ぎず、比較的容易に剥がせるという構造的な問題が浮き彫りになった。

補足:一般ユーザーへの直接的リスクは限定的

GRP-Obliterationはファインチューニング(追加学習)を必要とする手法であり、ChatGPTやGeminiなどのAPIを通常利用するだけでは実行できない。直接的なリスクが高いのは、オープンソースモデルをカスタマイズして運用している企業や開発者だ。

ユーザーが気をつけるべきこと

一般ユーザーがこの手法を直接悪用される心配は低いが、間接的な影響は無視できない。安全性が除去された「脱獄済みモデル」がオンラインで流通するリスクがある。AIが生成したコンテンツに対しては、公式サービス以外の出所不明なモデルを安易に信頼しないことが重要だ。

また、AIが生成する情報の正確性・安全性を鵜呑みにせず、重要な判断は必ず一次情報で裏取りする習慣を持つべきだろう。「AIが言っているから正しい」という前提は、セキュリティの観点からも危険だ。

企業がLLM導入時に考慮すべきセキュリティ対策

企業がLLMを自社サービスに組み込む際、今回の研究は重要な警鐘となる。Microsoft研究チームが推奨する「多層防御(Defense in Depth)」の考え方に基づき、以下の対策が求められる。

1

モデル単体の安全性に依存しない

安全性アライメントは「突破される前提」で設計する。入出力フィルタリング、コンテンツモデレーション等の外部レイヤーを必ず設置する。

2

ファインチューニングのアクセス制御

社内モデルのファインチューニング権限を厳格に管理し、不正な学習データの混入を防ぐ監査体制を整備する。

3

継続的なレッドチーム演習

導入後も定期的にJailbreak耐性テストを実施し、新たな攻撃手法への耐性を検証する。

4

ベンチマークだけで安全性を判断しない

安全性ベンチマークの高スコアは、実環境での堅牢性を保証しない。実運用シナリオに即した独自テストが不可欠だ。

まとめ:安全性アライメントの「限界」が見えた

GRP-Obliterationが示したのは、現在のLLMの安全対策が「頑丈な壁」ではなく「薄い塗装」に近いという事実だ。たった1つのプロンプトによるファインチューニングで安全性が剥がれ落ちるという結果は、AI業界全体が安全性設計を根本から見直す必要があることを意味している。

Microsoftがこの脆弱性を自ら公開したことは、責任あるAIセキュリティ研究の姿勢として評価できる。今後は、モデル内部の安全性だけでなく、システム全体としての多層防御がAI導入の標準要件になっていくだろう。