OpenAI「Codex Security」をリサーチプレビュー公開 ― 120万コミットスキャンで14件のCVEを発見したAIセキュリティエージェント
OpenAIは2026年3月7日、セキュリティ脆弱性を自動で検出・検証・修正するAIエージェント「Codex Security」をリサーチプレビューとして公開した。2025年10月にプライベートベータとして発表された「Aardvark」の進化版にあたり、ChatGPT Pro・Enterprise・Business・Eduユーザーに提供される。初月は無料で利用可能だ。
この記事のポイント
- ベータ期間中に120万以上のコミットをスキャンし、792件のクリティカル・10,561件の高重要度の脆弱性を発見
- OpenSSH・GnuTLS・Chromiumなど主要OSSで実際の脆弱性を発見し、14件のCVEが割り当て
- 誤検知率を50%以上削減、ノイズを84%削減、過剰報告を90%以上低減
- ChatGPT Pro/Enterprise/Business/Eduユーザー対象、初月無料
Codex Securityとは何か
Codex Securityは従来の静的解析ツールとは根本的に異なるアプローチをとるAIセキュリティエージェントだ。従来のSAST/DASTツールがルールベースでパターンマッチングを行うのに対し、Codex SecurityはLLMによる推論とツール操作を組み合わせ、セキュリティ研究者のように振る舞う。コードを読み、テストを実行し、現実的な攻撃パスを探索したうえでパッチを提案する。
前身となる「Aardvark」は2025年10月にプライベートベータとして公開されていた。今回のCodex Securityはそのアーキテクチャを継承しつつ、Codexプラットフォームに統合された形でリリースされた。OpenAIは「スキャナーではなくセキュリティ研究者として機能する」と位置づけている。
3段階のワークフロー:検出・検証・修正
Codex Securityの動作は3つのフェーズで構成される。単に脆弱性を見つけるだけでなく、検証と修正まで一気通貫で行う点が最大の特徴だ。
1. 識別(Identification)
リポジトリを解析し、セキュリティ上関連する構造を理解する。プロジェクト固有の脅威モデルを自動生成し、その文脈に基づいて脆弱性を探索する。現実的な攻撃パスを検討する点が従来のルールベーススキャナーとの大きな違いだ。
2. 検証(Validation)
発見した各課題をサンドボックス環境で再現し、実際に悪用可能かどうかを確認する。この検証プロセスにより誤検知が大幅に削減される。
3. 修正(Remediation)
検証済みの脆弱性に対して具体的なパッチを生成する。開発チームは通常のワークフローでレビューし、プルリクエストとして取り込める。
ベータテストの実績:数字で見る成果
OpenAIが公開したベータテストの結果は、AIセキュリティツールとしては突出した数値を示している。
| 指標 | 数値 |
|---|---|
| スキャンしたコミット数 | 120万件以上 |
| クリティカル脆弱性 | 792件 |
| 高重要度の脆弱性 | 10,561件 |
| 割り当てられたCVE | 14件 |
| ノイズ削減率 | 最大84% |
| 誤検知削減率 | 50%以上 |
| 過剰報告の削減率 | 90%以上 |
発見された主要OSSの脆弱性とCVE
Codex Securityが発見した脆弱性の中でも特に注目すべきは、広く使われているオープンソースプロジェクトでの実際のCVE割り当てだ。セキュリティツールの実力を測る最も確実な指標と言える。
| プロジェクト | CVE番号 | 概要 |
|---|---|---|
| GnuTLS | CVE-2025-32990 | certtoolのヒープバッファオーバーフロー(Off-by-One) |
| GnuTLS | CVE-2025-32989 | SCT拡張パーシングのヒープバッファオーバーリード |
| GnuTLS | CVE-2025-32988 | otherName SANエクスポートのDouble-Free |
| GnuPG | CVE-2026-24881 / CVE-2026-24882 | GnuPG関連の脆弱性(2件) |
| GOGS | CVE-2025-64175 / CVE-2026-25242 | Gitホスティングの脆弱性(2件) |
| Thorium | CVE-2025-35430〜35436 | Chromium派生ブラウザの脆弱性(複数件) |
GnuTLSはLinuxディストリビューションの多くで使われるTLS実装ライブラリであり、ここでのDouble-Freeやヒープオーバーフローの発見はインパクトが大きい。従来の自動ツールでは見逃されがちなメモリ安全性の問題を、LLMの推論能力で捉えた好例と言える。
利用条件と料金
Codex Securityは以下のChatGPTプランで利用可能だ。Codex Webから直接アクセスでき、初月は全対象プランで無料となっている。
| プラン | 月額料金 | 備考 |
|---|---|---|
| ChatGPT Pro | $200 | 個人向け最上位プラン |
| ChatGPT Enterprise | 要問合せ | SOC 2 Type 2準拠、SSO対応 |
| ChatGPT Business | $25/ユーザー | 年額払い、データ学習なし |
| ChatGPT Edu | 要問合せ | 教育機関向け |
API経由で利用する場合、codex-mini-latestモデルは入力100万トークンあたり$1.50、出力100万トークンあたり$6.00で提供されている。プロンプトキャッシュ利用時は75%の割引が適用される。
編集部の見解
Codex Securityの最大のインパクトは、「AIが実際にCVEを取得した」という事実だ。これまでもAIを使った脆弱性検出ツールは存在したが、OpenSSHやGnuTLSといった成熟したOSSで未知の脆弱性を発見し、正式にCVEが割り当てられた例はほとんどなかった。
誤検知率50%以上削減、ノイズ84%削減という数字も実務上のインパクトが大きい。既存のSASTツールで最大の課題は大量のアラートによる「アラート疲れ」であり、開発チームがセキュリティ警告を無視する原因になっていた。Codex Securityがこの課題を解決できれば、セキュリティ対策の実効性が大幅に向上する可能性がある。ただしリサーチプレビュー段階であり、本番環境での大規模運用にはまだ検証が必要だ。競合となるSnyk、SonarQube、GitHub Advanced Securityなどとの比較も今後の注目ポイントとなる。