ランキング一覧に戻る

汎用性能ランキング

MMLU-Pro、LMArena Elo による総合的な性能評価。

698 件のモデル

#モデル名開発元オープンソース
1OpenAI o1OpenAI91.01.0クローズド
2Gemini 3.0 Pro (Preview 11-2025)Google DeepMind90.01.0クローズド
3Opus 4.5Anthropic90.0クローズド
4Qwen3.7-Max-Previewアリババ89.6クローズド
5Qwen 3.6 Plus Previewアリババ88.51.0クローズド
6Qwen3.6-Max-Previewアリババ88.51.0クローズド
7Claude Sonnet 4.5Anthropic88.01.0クローズド
8M2.1MiniMax88.01.0クローズド
9Opus 4.1Anthropic88.01.0クローズド
10Qwen3.5-397B-A17Bアリババ87.81.0クローズド
11Hunyuan-T1テンセントAI研究所87.21.0クローズド
12DeepSeek-V4-ProDeepSeek87.11.0クローズド
13Grok 4xAI87.01.0クローズド
14DeepSeek-V4-FlashDeepSeek86.21.0クローズド
15Qwen3.6-27Bアリババ86.2クローズド
16Qwen3.5-27Bアリババ86.11.0クローズド
17GPT-4.5OpenAI86.11.0クローズド
18Gemini 2.5-ProGoogle DeepMind86.0クローズド
19Qwen3-Max-Thinkingアリババ85.7クローズド
20OpenAI o3OpenAI85.61.0クローズド
21Gemma 4 31BGoogle DeepMind85.21.0クローズド
22Qwen3.6-35B-A3Bアリババ85.2クローズド
23DeepSeek-V3.1 TerminusDeepSeek85.01.0クローズド
24DeepSeek V3.2-ExpDeepSeek85.01.0クローズド
25DeepSeek-R1-0528DeepSeek85.01.0クローズド
26Grok 4.1 FastxAI85.0クローズド
27DeepSeek-V3.1DeepSeek85.01.0クローズド
28Claude Opus 4Anthropic85.01.0クローズド
29GLM-4.5Zhipu AI84.61.0クローズド
30Claude Mythos PreviewAnthropicクローズド

ベンチマークについて

MMLU-Pro
Massive Multitask Language Understanding Pro — 幅広い知識分野の理解能力を測定
LMArena Elo
LMArena(旧Chatbot Arena)のEloレーティング — ユーザー匿名盲テストによる総合評価