ランキング一覧に戻る

推論能力ランキング

HLE、ARC-AGI-2、GPQA Diamond による推論・思考能力評価。

660 件のモデル

#モデル名開発元オープンソース
1Claude Mythos PreviewAnthropic64.794.6クローズド
2GPT-5.4 ProOpenAI58.783.394.4クローズド
3Muse SparkMeta AI58.042.589.5クローズド
4GPT-5.5 ProOpenAI57.284.6クローズド
5Opus 4.7Anthropic54.775.894.2クローズド
6Kimi K2.6Moonshot AI54.090.5クローズド
7Qwen3.7-Max-Previewアリババ53.592.4クローズド
8Claude Opus 4.6Anthropic53.066.391.3クローズド
9GLM 5.1Zhipu AI52.3クローズド
10GPT-5.5OpenAI52.285.093.6クローズド
11GPT-5.4OpenAI52.177.192.8クローズド
12Gemini 3.1 Pro PreviewGoogle DeepMind51.477.194.3クローズド
13Kimi K2 ThinkingMoonshot AI51.0クローズド
14Qwen 3.6 Plus Previewアリババ50.690.4クローズド
15GLM-5Zhipu AI50.44.9クローズド
16Kimi K2.5Moonshot AI50.211.8クローズド
17Qwen3.6-Max-Previewアリババ50.290.4クローズド
18GPT-5.2 ProOpenAI50.054.293.2クローズド
19Qwen3-Max-Thinkingアリババ49.8クローズド
20Claude Sonnet 4.6Anthropic49.058.389.9クローズド
21Qwen3.5-27Bアリババ48.5クローズド
22Gemini 3 Deep Think - 2620Google DeepMind48.484.6クローズド
23Qwen3.5-397B-A17Bアリババ48.388.4クローズド
24DeepSeek-V4-ProDeepSeek48.289.1クローズド
25Gemini 3.0 Pro (Preview 11-2025)Google DeepMind45.845.191.0クローズド
26GPT-5.2OpenAI45.554.292.4クローズド
27DeepSeek-V4-FlashDeepSeek45.188.1クローズド
28Grok 4 HeavyxAI44.4クローズド
29Gemini 3.0 FlashGoogle DeepMind43.533.690.4クローズド
30Opus 4.5Anthropic43.237.6クローズド

ベンチマークについて

HLE
総合知能テスト — 人間レベルの推論能力を測定
ARC-AGI-2
抽象的推論ベンチマーク — 新規パターンの汎化能力を測定
GPQA Diamond
Graduate-Level Google-Proof Q&A — 大学院レベルの科学的推論能力を測定