Math Capability

Mathematical reasoning benchmarks: AIME 2025/2026, FrontierMath, MATH-500, GSM8K.

786 models

#	Model	Developer						Open Source
1	Step 3.5 Flash	StepFun	97.3	—	—	—	—	Closed
2	DeepSeek V3.2 Speciale	DeepSeek	96.0	—	—	—	—	Closed
3	DeepSeek V3.2	DeepSeek	93.1	92.7	2.1	—	—	Closed
4	o3-pro	OpenAI	93.0	—	—	—	—	Closed
5	Qwen3-235B-A22B-Thinking	アリババ	92.3	—	—	—	—	Open
6	Grok 4 Fast	xAI	92.0	—	—	—	—	Closed
7	GLM-4.7-Flash	Zhipu AI	91.6	—	—	—	—	Closed
8	Grok 4.1 Fast	xAI	89.0	—	—	—	—	Closed
9	DeepSeek-R1-0528	DeepSeek	87.5	—	—	98.0	—	Closed
10	MiniMax M2.5	MiniMax	86.3	—	—	—	—	Closed
11	Intern-S1	上海人工知能研究所	86.0	—	—	—	—	Open
12	Gemini-2.5-Pro-Preview-05-06	Google DeepMind	83.0	—	2.1	98.8	—	Closed
13	GPT OSS 120B	OpenAI	83.0	—	—	—	—	Closed
14	Step3	StepFun	82.9	—	—	—	—	Open
15	Qwen3-4B-Thinking-2507	アリババ	81.3	—	—	—	—	Open
16	M2.1	MiniMax	81.0	—	—	—	—	Closed
17	Qwen3 Max (Preview)	アリババ	80.6	—	—	—	—	Closed
18	GPT OSS 20B	OpenAI	79.0	—	—	—	—	Closed
19	MiniMax M2	MiniMax	78.0	—	—	—	—	Closed
20	MiniMax-M1-80k	MiniMax	76.9	—	—	96.8	—	Closed
21	Hunyuan-A13B-Instruct	テンセントAI研究所	76.8	—	—	—	91.8	Closed
22	Hunyuan-7B	テンセント	75.3	—	—	93.7	—	Closed
23	Kimi K2 0905	Moonshot AI	75.2	—	—	—	—	Closed
24	MiniMax-M1-40k	MiniMax	74.6	—	—	96.0	—	Closed
25	Qwen3-235B-A22B-2507	アリババ	70.3	—	—	—	—	Closed
26	DeepSeek-R1	DeepSeek	70.0	—	—	97.3	—	Closed
27	Qwen3-Next	アリババ	69.5	—	—	—	90.3	Closed
28	Pangu Pro MoE	ファーウェイ	68.1	—	—	96.8	—	Closed
29	Magistral-Medium-2506	Mistral	65.0	—	—	—	—	Closed
30	Gemini 2.5 Flash-Lite	Google DeepMind	63.1	—	—	—	—	Closed

About Benchmarks

AIME 2025

American Invitational Mathematics Examination 2025 — 高校生レベルの数学コンテスト

AIME 2026

American Invitational Mathematics Examination 2026 — 高校生レベルの数学コンテスト

FrontierMath - Tier 4

高度な数学問題 — 研究レベルの数学的推論能力を測定

MATH-500

数学問題セット — 幅広い数学分野の問題解決能力を測定

GSM8K

Grade School Math 8K — 小学校レベルの数学的推論能力を測定