AIモデルランキング
HLE、ARC-AGI-2、FrontierMath、SWE-bench Verified、τ²-Bench の統合ランキング。 各ベンチマークの最高スコアを表示しています。
| # | モデル名 | 開発元 | オープンソース | |||||
|---|---|---|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 64.7 | 58.3 | 72.1 | 76.5 | 68.2 | クローズド |
| 2 | GPT-5.4 Pro | OpenAI | 58.7 | 52.1 | 65.8 | 71.3 | 62.5 | クローズド |
| 3 | GPT-5.2 | OpenAI | 50.3 | 45.6 | 58.2 | 64.8 | 55.1 | クローズド |
| 4 | Gemini 3.0 Pro | Google DeepMind | 48.5 | 43.2 | 55.0 | 60.2 | 52.8 | クローズド |
| 5 | Claude Opus 4.7 | Anthropic | 46.8 | 41.5 | 52.3 | 58.9 | 50.4 | クローズド |
| 9 | GPT-5.1 Codex Max | OpenAI | 42.1 | 38.7 | 46.3 | 68.2 | 44.5 | クローズド |
| 6 | Qwen3.6-27B | Alibaba | 38.2 | 35.8 | 44.5 | 52.1 | 41.3 | オープン |
| 7 | DeepSeek V3.2 | DeepSeek-AI | 35.6 | 32.4 | 40.8 | 48.5 | 38.7 | オープン |
| 10 | Grok 4.2 Beta | xAI | 32.8 | 29.5 | 36.7 | 42.1 | 35.4 | クローズド |
| 12 | Llama-3-Namazu-405B | Sakana AI | 30.1 | 27.2 | 34.0 | 39.5 | 32.1 | 非商用 |
| 13 | Namazu-DeepSeek-V3.1 | Sakana AI | 28.6 | 25.8 | 32.0 | 37.0 | 30.5 | オープン |
| 8 | Gemma 4 31B | Google DeepMind | 28.4 | 26.1 | 32.0 | 38.5 | 30.2 | オープン |
| 14 | ELYZA-Thinking-1.0 | ELYZA | 24.3 | 22.0 | 28.5 | 25.2 | 21.0 | 非商用 |
| 11 | PLaMo 2.0 | Preferred Networks | 22.5 | 20.1 | 25.0 | 28.3 | 22.8 | 非商用 |
| 15 | Llama-3-ELYZA-JP-8B | ELYZA | 12.8 | 11.5 | 14.0 | 16.2 | 13.8 | 非商用 |
| 16 | Youri-7B | rinna | 10.5 | 9.8 | 12.0 | 14.5 | 11.2 | オープン |