汎用性能ランキング

MMLU-Pro、LMArena Elo による総合的な性能評価。

786 件のモデル

#	モデル名	開発元			オープンソース
1	OpenAI o1	OpenAI	91.0	1.0	クローズド
2	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	90.0	1.0	クローズド
3	Opus 4.5	Anthropic	90.0	—	クローズド
4	Qwen3.7-Max-Preview	アリババ	89.6	1.0	クローズド
5	Qwen 3.6 Plus Preview	アリババ	88.5	1.0	クローズド
6	Qwen3.6-Max-Preview	アリババ	88.5	1.0	クローズド
7	Claude Sonnet 4.5	Anthropic	88.0	1.0	クローズド
8	M2.1	MiniMax	88.0	1.0	クローズド
9	Opus 4.1	Anthropic	88.0	1.0	クローズド
10	Qwen3.5-397B-A17B	アリババ	87.8	1.0	クローズド
11	Hunyuan-T1	テンセントAI研究所	87.2	1.0	クローズド
12	DeepSeek-V4-Pro	DeepSeek	87.1	1.0	クローズド
13	Grok 4	xAI	87.0	1.0	クローズド
14	DeepSeek-V4-Flash	DeepSeek	86.2	1.0	クローズド
15	Qwen3.6-27B	アリババ	86.2	—	クローズド
16	Qwen3.5-27B	アリババ	86.1	1.0	クローズド
17	GPT-4.5	OpenAI	86.1	1.0	クローズド
18	Gemini 2.5-Pro	Google DeepMind	86.0	—	クローズド
19	Qwen3-Max-Thinking	アリババ	85.7	—	クローズド
20	OpenAI o3	OpenAI	85.6	1.0	クローズド
21	Gemma 4 31B	Google DeepMind	85.2	1.0	クローズド
22	Qwen3.6-35B-A3B	アリババ	85.2	—	クローズド
23	DeepSeek-V3.1 Terminus	DeepSeek	85.0	1.0	クローズド
24	DeepSeek V3.2-Exp	DeepSeek	85.0	1.0	クローズド
25	DeepSeek-R1-0528	DeepSeek	85.0	1.0	クローズド
26	Grok 4.1 Fast	xAI	85.0	—	クローズド
27	DeepSeek-V3.1	DeepSeek	85.0	1.0	クローズド
28	Claude Opus 4	Anthropic	85.0	1.0	クローズド
29	GLM-4.5	Zhipu AI	84.6	1.0	クローズド
30	Claude Mythos Preview	Anthropic	—	—	クローズド

ベンチマークについて

MMLU-Pro

Massive Multitask Language Understanding Pro — 幅広い知識分野の理解能力を測定

LMArena Elo

LMArena（旧Chatbot Arena）のEloレーティング — ユーザー匿名盲テストによる総合評価