GPT-5.4 Proが未解決の数学問題に進展|FrontierMathベンチマークでTier4スコア倍増

|Aitly編集部

GPT-5.4 ProがEpoch AIの数学ベンチマーク「FrontierMath」で過去最高スコアを記録し、20年間未解決だった数学問題を初めて解きました。r/singularityでは162アップボートを集め、「AIが数学研究を変える瞬間」として大きな議論を呼んでいます。

Tier 4(研究レベル)のスコアは前モデルGPT-5.2の18.8%から38.0%へとほぼ倍増。さらにFrontierMath Open Problems(未解決問題コレクション)でも初のAI解答が確認され、Epoch AIが検証を進めています。この記事では、具体的に何が起きたのか、どこまでが「本物の進展」なのかを整理します。

この記事でわかること

  • GPT-5.4 ProがFrontierMathで叩き出した具体的なスコア
  • 20年間未解決だった数学問題をどう解いたのか
  • 「2011年のプレプリント発掘」という意外な解法の正体
  • Redditコミュニティの反応と専門家の評価

何が起きたのか:FrontierMathの新記録

GPT-5.4 ProはEpoch AIのFrontierMathベンチマーク全カテゴリで過去最高スコアを記録しました。FrontierMathは350問の未公開数学問題で構成され、「AIがどこまで本格的な数学研究に迫れるか」を測る最難関ベンチマークです。

カテゴリ GPT-5.2 Pro GPT-5.4 Pro 変化
Tier 1〜3(300問) 31% 50% +19pt
Tier 4(50問・研究レベル) 18.8% 38.0% +19.2pt(約2倍)
AIME 2025 100% 満点

出典:Epoch AI FrontierMathZvi Mowshowitz

FrontierMathが2024年末に登場した時点では、最先端モデルでも正解率はわずか2%でした。それが16か月で50%に到達したことになります。Epoch AIは「GPT-5.4 set a new record on FrontierMath」と公式に発表しています。

20年間未解決だった問題の詳細

GPT-5.4 Proは、ポーランドの数学者バルトシュ・ナスクレンツキ(Bartosz Naskrecki)が20年間研究してきた問題を初めて解きました。ナスクレンツキはアダム・ミツキェヴィチ大学の数学・情報科学部副学部長で、FrontierMathに問題を提供するヨーロッパの5人の数学者のひとりです。

問題の分野はガロア理論、代数幾何学、算術幾何学にまたがる高度な内容です。ナスクレンツキ自身が約8年前に13ページの解答を書き上げていましたが、未発表のまま。さらにAIが解けないよう意図的に難易度を上げ、o4-mini-highでは解けないことを事前に確認したうえでFrontierMathに提出していました。

11回中1回だけ成功:9%の成功率

Epoch AIはGPT-5.4 Proでこの問題を11回独立に実行し、成功したのは11回目の1回だけでした。成功率は約9%です。しかしその1回の解法は、ナスクレンツキ自身が「非常にきれいで、ほとんど人間的(almost human)」と評価するものでした。

GPT-5.4 Proは「算術と幾何学の関係に対する非常にきれいなパターン」を発見し、高度な数学的道具を使わずに「巧みな和の技法(summation trick)」で解いたとされています。ナスクレンツキは「My singularity has just happened(私のシンギュラリティが来た)」とコメントしています。

「2011年のプレプリント」問題の真相

GPT-5.4 Proが解いたもうひとつのTier 4問題には重要な注釈がつきました。別のTier 4問題で「これまでどのモデルも解けなかった問題」をGPT-5.4 Proが解いたように見えたのですが、調査の結果、モデルは2011年に公開された未査読のプレプリント(予稿論文)を発見し、それを使って解法をショートカットしていたことが判明しました。

問題の作成者自身がこのプレプリントの存在を知らなかったため、「AIが独自に解いた」ように見えていました。Computerworld誌はこれについて「GPT-5.4が(そしてすべてのAIモデルが)高度な検索エンジンであり、その有効性は情報へのアクセスと迅速な吸収に依存している」と指摘しています。

注意すべきポイント

AIの数学的「ブレイクスルー」の一部は、膨大な学術文献の中から人間が見落としていた既存の解法を発掘する「文献考古学」であることが判明しています。これは独自の数学的推論とは異なりますが、学術研究における新しい価値を持つ可能性もあります。

AI数学の現在地:IMOからFrontierMathへ

GPT-5.4 Proの成果は、AIの数学能力が急速に向上している流れの最新章です。以下はこの1年半の主要なマイルストーンです。

2024年末
FrontierMath登場。最先端モデルの正解率はわずか2%
2025年7月
DeepMindのAlphaProof/AlphaGeometryがIMO 2025で金メダル相当のスコアを達成
2025年12月
GPT-5.2 Proがエルデシュ問題#728をほぼ自律的に解決。テレンス・タオが「既存文献にない解法」と評価
2026年2月
FrontierMath Open Problems開始。アダマール行列やディオファントス方程式など15問の未解決問題を収録
2026年3月
GPT-5.4 ProがFrontierMath Tier 4で38%を達成。Open Problemsでも初の解答候補を提出

AIME(アメリカ数学招待試験)では100%を達成しましたが、これは高校数学コンペレベルの話です。FrontierMathのTier 4は大学院〜研究者レベルであり、ここで38%というスコアは「数学者の助手」として実用的なレベルに近づきつつあることを示しています。

ただし、ある研究者は「GPT-5.4 Proは科学全般では5.2より良いが、数学に関しては5.2 Proより劣る面がある」と指摘しています。「正解を出す能力は上がったが、理解や証明の深さは進歩していない」という評価もあり、スコアの向上が必ずしも数学的推論力の向上を意味しない点には注意が必要です。

Redditの反応を翻訳で紹介

r/singularityでは162アップボート・12コメントを集め、「AIの数学能力がどこまで本物か」をめぐって議論が白熱しました。以下、代表的なコメントを紹介します。

楽観派の声

“FrontierMath went from 2% to 50% in sixteen months. The pace is insane.”

(訳)FrontierMathは16か月で2%から50%になった。ペースが異常だ。

慎重派の声

“Finding a forgotten preprint isn’t the same as solving the problem. It’s literature search, not mathematics.”

(訳)忘れられたプレプリントを見つけることは問題を解くこととは違う。文献検索であって数学ではない。

数学者視点

“The Naskręcki problem is the real deal. 9% success rate, but the one solution it found was elegant. That’s how mathematicians work too — most attempts fail.”

(訳)ナスクレンツキの問題は本物だ。成功率9%だが、見つけた解法はエレガントだった。数学者もそうやって働く――大半の試みは失敗する。

実用性への関心

“The ‘literature archaeology’ angle is underrated. If AI can find relevant forgotten papers faster than any human, that’s already transformative for research.”

(訳)「文献考古学」の側面は過小評価されている。AIが人間より速く関連する忘れられた論文を見つけられるなら、それだけで研究にとって変革的だ。

Aitly編集部の見解

GPT-5.4 Proの成果は「すごいけど、冷静に見る必要がある」というのが率直な評価です。

ナスクレンツキの問題を解いた件は確かに画期的です。20年間未解決だった問題に対して、人間の数学者が「エレガント」と認める解法を導き出したことは、AIの推論能力が一定の水準に達していることを示しています。

一方で、「2011年のプレプリント発掘」で解いた問題は、AIが数学的推論をしたのではなく情報検索で解いたケースです。FrontierMath Open Problemsの15問はまだ全問未解決のままであり、「AIが未解決問題を次々と解いている」というイメージとは乖離があります。

現実的に見ると、GPT-5.4 Proは「数学研究のパートナー」として有望です。11回中1回でも正解を出せるなら、数学者が自分の解法を検証したり、別のアプローチを探索したりする際の補助ツールとして十分に価値があります。「AIが数学者を置き換える」のではなく、「数学者がAIを道具として使う」時代が現実味を帯びてきたと言えるでしょう。

よくある質問

Epoch AIが運営する数学ベンチマークで、350問の未公開問題で構成されています。Tier 1〜3(学部〜ポスドク初期レベル・300問)とTier 4(研究レベル・50問)に分かれており、2024年末の登場時は最先端モデルでも正解率2%という難易度でした。さらに2026年2月から「Open Problems」として15問の未解決問題コレクションも追加されています。

2つのケースがあります。ナスクレンツキの問題(20年間未解決のTier 4問題)は、問題作成者が「エレガントな解法」と認めた正当な成果です。一方、別のTier 4問題は2011年のプレプリントを発掘して解いたもので、「独自の数学的推論」とは言いがたい面があります。FrontierMath Open Problems(15問の未解決問題コレクション)については、Epoch AIが検証中の解答候補が1つありますが、2026年3月時点で正式に解決とされた問題はありません。

FrontierMath Tier 1〜3で31%から50%へ、Tier 4で18.8%から38.0%へとほぼ倍増しています。AIME 2025では100%(満点)を達成しました。ただし、一部の研究者からは「正解率は上がったが、数学的な理解や証明の深さは5.2 Proと大差ない」という指摘もあります。

参考リンク

文:Aitly編集部|2026年3月18日