推論能力ランキング

HLE、ARC-AGI-2、GPQA Diamond による推論・思考能力評価。

786 件のモデル

#	モデル名	開発元				オープンソース
1	Claude Mythos Preview	Anthropic	64.7	—	94.6	クローズド
2	Claude Fable 5	Anthropic	59.0	—	—	クローズド
3	GPT-5.4 Pro	OpenAI	58.7	83.3	94.4	クローズド
4	Muse Spark	Meta AI	58.0	42.5	89.5	クローズド
5	Claude Opus 4.8	Anthropic	57.9	—	93.6	クローズド
6	Claude Sonnet 5	Anthropic	57.4	—	—	クローズド
7	GPT-5.5 Pro	OpenAI	57.2	84.6	—	クローズド
8	GLM-5.2	Zhipu AI	54.7	—	91.2	クローズド
9	Opus 4.7	Anthropic	54.7	75.8	94.2	クローズド
10	Kimi K2.6	Moonshot AI	54.0	—	90.5	クローズド
11	Qwen3.7-Max-Preview	アリババ	53.5	—	92.4	クローズド
12	Claude Opus 4.6	Anthropic	53.0	66.3	91.3	クローズド
13	GLM 5.1	Zhipu AI	52.3	—	—	クローズド
14	GPT-5.5	OpenAI	52.2	85.0	93.6	クローズド
15	GPT-5.4	OpenAI	52.1	77.1	92.8	クローズド
16	Gemini 3.1 Pro Preview	Google DeepMind	51.4	77.1	94.3	クローズド
17	Kimi K2 Thinking	Moonshot AI	51.0	—	—	クローズド
18	Qwen 3.6 Plus Preview	アリババ	50.6	—	90.4	クローズド
19	GLM-5	Zhipu AI	50.4	4.9	—	クローズド
20	Kimi K2.5	Moonshot AI	50.2	11.8	—	クローズド
21	Qwen3.6-Max-Preview	アリババ	50.2	—	90.4	クローズド
22	GPT-5.2 Pro	OpenAI	50.0	54.2	93.2	クローズド
23	Qwen3-Max-Thinking	アリババ	49.8	—	—	クローズド
24	Claude Sonnet 4.6	Anthropic	49.0	58.3	89.9	クローズド
25	Qwen3.5-27B	アリババ	48.5	—	—	クローズド
26	Gemini 3 Deep Think - 2620	Google DeepMind	48.4	84.6	—	クローズド
27	Qwen3.5-397B-A17B	アリババ	48.3	—	88.4	クローズド
28	DeepSeek-V4-Pro	DeepSeek	48.2	—	89.1	クローズド
29	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	45.8	45.1	91.0	クローズド
30	GPT-5.2	OpenAI	45.5	54.2	92.4	クローズド

ベンチマークについて

HLE

総合知能テスト — 人間レベルの推論能力を測定

ARC-AGI-2

抽象的推論ベンチマーク — 新規パターンの汎化能力を測定

GPQA Diamond

Graduate-Level Google-Proof Q&A — 大学院レベルの科学的推論能力を測定