ランキング一覧に戻る

数学能力ランキング

AIME 2025/2026、FrontierMath、MATH-500、GSM8K による数学的推論能力評価。

698 件のモデル

#モデル名開発元オープンソース
1Step 3.5 FlashStepFun97.3クローズド
2DeepSeek V3.2 SpecialeDeepSeek96.0クローズド
3DeepSeek V3.2DeepSeek93.192.72.1クローズド
4o3-proOpenAI93.0クローズド
5Qwen3-235B-A22B-Thinkingアリババ92.3オープン
6Grok 4 FastxAI92.0クローズド
7GLM-4.7-FlashZhipu AI91.6クローズド
8Grok 4.1 FastxAI89.0クローズド
9DeepSeek-R1-0528DeepSeek87.598.0クローズド
10MiniMax M2.5MiniMax86.3クローズド
11Intern-S1上海人工知能研究所86.0オープン
12Gemini-2.5-Pro-Preview-05-06Google DeepMind83.02.198.8クローズド
13GPT OSS 120BOpenAI83.0クローズド
14Step3StepFun82.9オープン
15Qwen3-4B-Thinking-2507アリババ81.3オープン
16M2.1MiniMax81.0クローズド
17Qwen3 Max (Preview)アリババ80.6クローズド
18GPT OSS 20BOpenAI79.0クローズド
19MiniMax M2MiniMax78.0クローズド
20MiniMax-M1-80kMiniMax76.996.8クローズド
21Hunyuan-A13B-InstructテンセントAI研究所76.891.8クローズド
22Hunyuan-7Bテンセント75.393.7クローズド
23Kimi K2 0905Moonshot AI75.2クローズド
24MiniMax-M1-40kMiniMax74.696.0クローズド
25Qwen3-235B-A22B-2507アリババ70.3クローズド
26DeepSeek-R1DeepSeek70.097.3クローズド
27Qwen3-Nextアリババ69.590.3クローズド
28Pangu Pro MoEファーウェイ68.196.8クローズド
29Magistral-Medium-2506Mistral65.0クローズド
30Gemini 2.5 Flash-LiteGoogle DeepMind63.1クローズド

ベンチマークについて

AIME 2025
American Invitational Mathematics Examination 2025 — 高校生レベルの数学コンテスト
AIME 2026
American Invitational Mathematics Examination 2026 — 高校生レベルの数学コンテスト
FrontierMath - Tier 4
高度な数学問題 — 研究レベルの数学的推論能力を測定
MATH-500
数学問題セット — 幅広い数学分野の問題解決能力を測定
GSM8K
Grade School Math 8K — 小学校レベルの数学的推論能力を測定