数学能力ランキング

AIME 2025/2026、FrontierMath、MATH-500、GSM8K による数学的推論能力評価。

786 件のモデル

#	モデル名	開発元						オープンソース
1	Step 3.5 Flash	StepFun	97.3	—	—	—	—	クローズド
2	DeepSeek V3.2 Speciale	DeepSeek	96.0	—	—	—	—	クローズド
3	DeepSeek V3.2	DeepSeek	93.1	92.7	2.1	—	—	クローズド
4	o3-pro	OpenAI	93.0	—	—	—	—	クローズド
5	Qwen3-235B-A22B-Thinking	アリババ	92.3	—	—	—	—	オープン
6	Grok 4 Fast	xAI	92.0	—	—	—	—	クローズド
7	GLM-4.7-Flash	Zhipu AI	91.6	—	—	—	—	クローズド
8	Grok 4.1 Fast	xAI	89.0	—	—	—	—	クローズド
9	DeepSeek-R1-0528	DeepSeek	87.5	—	—	98.0	—	クローズド
10	MiniMax M2.5	MiniMax	86.3	—	—	—	—	クローズド
11	Intern-S1	上海人工知能研究所	86.0	—	—	—	—	オープン
12	Gemini-2.5-Pro-Preview-05-06	Google DeepMind	83.0	—	2.1	98.8	—	クローズド
13	GPT OSS 120B	OpenAI	83.0	—	—	—	—	クローズド
14	Step3	StepFun	82.9	—	—	—	—	オープン
15	Qwen3-4B-Thinking-2507	アリババ	81.3	—	—	—	—	オープン
16	M2.1	MiniMax	81.0	—	—	—	—	クローズド
17	Qwen3 Max (Preview)	アリババ	80.6	—	—	—	—	クローズド
18	GPT OSS 20B	OpenAI	79.0	—	—	—	—	クローズド
19	MiniMax M2	MiniMax	78.0	—	—	—	—	クローズド
20	MiniMax-M1-80k	MiniMax	76.9	—	—	96.8	—	クローズド
21	Hunyuan-A13B-Instruct	テンセントAI研究所	76.8	—	—	—	91.8	クローズド
22	Hunyuan-7B	テンセント	75.3	—	—	93.7	—	クローズド
23	Kimi K2 0905	Moonshot AI	75.2	—	—	—	—	クローズド
24	MiniMax-M1-40k	MiniMax	74.6	—	—	96.0	—	クローズド
25	Qwen3-235B-A22B-2507	アリババ	70.3	—	—	—	—	クローズド
26	DeepSeek-R1	DeepSeek	70.0	—	—	97.3	—	クローズド
27	Qwen3-Next	アリババ	69.5	—	—	—	90.3	クローズド
28	Pangu Pro MoE	ファーウェイ	68.1	—	—	96.8	—	クローズド
29	Magistral-Medium-2506	Mistral	65.0	—	—	—	—	クローズド
30	Gemini 2.5 Flash-Lite	Google DeepMind	63.1	—	—	—	—	クローズド

ベンチマークについて

AIME 2025

American Invitational Mathematics Examination 2025 — 高校生レベルの数学コンテスト

AIME 2026

American Invitational Mathematics Examination 2026 — 高校生レベルの数学コンテスト

FrontierMath - Tier 4

高度な数学問題 — 研究レベルの数学的推論能力を測定

MATH-500

数学問題セット — 幅広い数学分野の問題解決能力を測定

GSM8K

Grade School Math 8K — 小学校レベルの数学的推論能力を測定