AIモデルランキング

HLE、ARC-AGI-2、FrontierMath、SWE-bench Verified、τ²-Bench の統合ランキング。 各ベンチマークの最高スコアを表示しています。

#モデル名開発元オープンソース
1Claude Mythos PreviewAnthropic64.758.372.176.568.2クローズド
2GPT-5.4 ProOpenAI58.752.165.871.362.5クローズド
3GPT-5.2OpenAI50.345.658.264.855.1クローズド
4Gemini 3.0 ProGoogle DeepMind48.543.255.060.252.8クローズド
5Claude Opus 4.7Anthropic46.841.552.358.950.4クローズド
9GPT-5.1 Codex MaxOpenAI42.138.746.368.244.5クローズド
6Qwen3.6-27BAlibaba38.235.844.552.141.3オープン
7DeepSeek V3.2DeepSeek-AI35.632.440.848.538.7オープン
10Grok 4.2 BetaxAI32.829.536.742.135.4クローズド
12Llama-3-Namazu-405BSakana AI30.127.234.039.532.1非商用
13Namazu-DeepSeek-V3.1Sakana AI28.625.832.037.030.5オープン
8Gemma 4 31BGoogle DeepMind28.426.132.038.530.2オープン
14ELYZA-Thinking-1.0ELYZA24.322.028.525.221.0非商用
11PLaMo 2.0Preferred Networks22.520.125.028.322.8非商用
15Llama-3-ELYZA-JP-8BELYZA12.811.514.016.213.8非商用
16Youri-7Brinna10.59.812.014.511.2オープン

ベンチマークについて

HLE
Human-Like Evaluation — 総合知能テスト
ARC-AGI-2
抽象的推論ベンチマーク
FrontierMath
高度な数学問題
SWE-bench Verified
実践的ソフトウェア開発タスク
τ²-Bench
自律エージェントタスク