리더보드로 돌아가기
HLE 総合知能テスト — 人間レベルの推論能力を測定 ARC-AGI-2 抽象的推論ベンチマーク — 新規パターンの汎化能力を測定 GPQA Diamond Graduate-Level Google-Proof Q&A — 大学院レベルの科学的推論能力を測定
추론 능력
HLE, ARC-AGI-2, GPQA Diamond 기반 추론·사고 능력 평가.
761 모델
| # | 모델명 | 개발사 | 오픈소스 | |||
|---|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 64.7 | — | 94.6 | 클로즈드 |
| 2 | Claude Fable 5 | Anthropic | 59.0 | — | — | 클로즈드 |
| 3 | GPT-5.4 Pro | OpenAI | 58.7 | 83.3 | 94.4 | 클로즈드 |
| 4 | Muse Spark | Meta AI | 58.0 | 42.5 | 89.5 | 클로즈드 |
| 5 | Claude Opus 4.8 | Anthropic | 57.9 | — | 93.6 | 클로즈드 |
| 6 | GPT-5.5 Pro | OpenAI | 57.2 | 84.6 | — | 클로즈드 |
| 7 | GLM-5.2 | Zhipu AI | 54.7 | — | 91.2 | 클로즈드 |
| 8 | Opus 4.7 | Anthropic | 54.7 | 75.8 | 94.2 | 클로즈드 |
| 9 | Kimi K2.6 | Moonshot AI | 54.0 | — | 90.5 | 클로즈드 |
| 10 | Qwen3.7-Max-Preview | アリババ | 53.5 | — | 92.4 | 클로즈드 |
| 11 | Claude Opus 4.6 | Anthropic | 53.0 | 66.3 | 91.3 | 클로즈드 |
| 12 | GLM 5.1 | Zhipu AI | 52.3 | — | — | 클로즈드 |
| 13 | GPT-5.5 | OpenAI | 52.2 | 85.0 | 93.6 | 클로즈드 |
| 14 | GPT-5.4 | OpenAI | 52.1 | 77.1 | 92.8 | 클로즈드 |
| 15 | Gemini 3.1 Pro Preview | Google DeepMind | 51.4 | 77.1 | 94.3 | 클로즈드 |
| 16 | Kimi K2 Thinking | Moonshot AI | 51.0 | — | — | 클로즈드 |
| 17 | Qwen 3.6 Plus Preview | アリババ | 50.6 | — | 90.4 | 클로즈드 |
| 18 | GLM-5 | Zhipu AI | 50.4 | 4.9 | — | 클로즈드 |
| 19 | Kimi K2.5 | Moonshot AI | 50.2 | 11.8 | — | 클로즈드 |
| 20 | Qwen3.6-Max-Preview | アリババ | 50.2 | — | 90.4 | 클로즈드 |
| 21 | GPT-5.2 Pro | OpenAI | 50.0 | 54.2 | 93.2 | 클로즈드 |
| 22 | Qwen3-Max-Thinking | アリババ | 49.8 | — | — | 클로즈드 |
| 23 | Claude Sonnet 4.6 | Anthropic | 49.0 | 58.3 | 89.9 | 클로즈드 |
| 24 | Qwen3.5-27B | アリババ | 48.5 | — | — | 클로즈드 |
| 25 | Gemini 3 Deep Think - 2620 | Google DeepMind | 48.4 | 84.6 | — | 클로즈드 |
| 26 | Qwen3.5-397B-A17B | アリババ | 48.3 | — | 88.4 | 클로즈드 |
| 27 | DeepSeek-V4-Pro | DeepSeek | 48.2 | — | 89.1 | 클로즈드 |
| 28 | Gemini 3.0 Pro (Preview 11-2025) | Google DeepMind | 45.8 | 45.1 | 91.0 | 클로즈드 |
| 29 | GPT-5.2 | OpenAI | 45.5 | 54.2 | 92.4 | 클로즈드 |
| 30 | DeepSeek-V4-Flash | DeepSeek | 45.1 | — | 88.1 | 클로즈드 |