리더보드로 돌아가기

종합 랭킹 코딩 능력 수학 능력 AI 에이전트 능력 추론 능력 범용 성능 OpenClaw 랭킹

범용 성능

MMLU-Pro, LMArena Elo 기반 종합 성능 평가.

761 모델

#	모델명	개발사			오픈소스
1	OpenAI o1	OpenAI	91.0	1.0	클로즈드
2	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	90.0	1.0	클로즈드
3	Opus 4.5	Anthropic	90.0	—	클로즈드
4	Qwen3.7-Max-Preview	アリババ	89.6	1.0	클로즈드
5	Qwen 3.6 Plus Preview	アリババ	88.5	1.0	클로즈드
6	Qwen3.6-Max-Preview	アリババ	88.5	1.0	클로즈드
7	Claude Sonnet 4.5	Anthropic	88.0	1.0	클로즈드
8	M2.1	MiniMax	88.0	1.0	클로즈드
9	Opus 4.1	Anthropic	88.0	1.0	클로즈드
10	Qwen3.5-397B-A17B	アリババ	87.8	1.0	클로즈드
11	Hunyuan-T1	テンセントAI研究所	87.2	1.0	클로즈드
12	DeepSeek-V4-Pro	DeepSeek	87.1	1.0	클로즈드
13	Grok 4	xAI	87.0	1.0	클로즈드
14	DeepSeek-V4-Flash	DeepSeek	86.2	1.0	클로즈드
15	Qwen3.6-27B	アリババ	86.2	—	클로즈드
16	Qwen3.5-27B	アリババ	86.1	1.0	클로즈드
17	GPT-4.5	OpenAI	86.1	1.0	클로즈드
18	Gemini 2.5-Pro	Google DeepMind	86.0	—	클로즈드
19	Qwen3-Max-Thinking	アリババ	85.7	—	클로즈드
20	OpenAI o3	OpenAI	85.6	1.0	클로즈드
21	Gemma 4 31B	Google DeepMind	85.2	1.0	클로즈드
22	Qwen3.6-35B-A3B	アリババ	85.2	—	클로즈드
23	DeepSeek-V3.1 Terminus	DeepSeek	85.0	1.0	클로즈드
24	DeepSeek V3.2-Exp	DeepSeek	85.0	1.0	클로즈드
25	DeepSeek-R1-0528	DeepSeek	85.0	1.0	클로즈드
26	Grok 4.1 Fast	xAI	85.0	—	클로즈드
27	DeepSeek-V3.1	DeepSeek	85.0	1.0	클로즈드
28	Claude Opus 4	Anthropic	85.0	1.0	클로즈드
29	GLM-4.5	Zhipu AI	84.6	1.0	클로즈드
30	Claude Mythos Preview	Anthropic	—	—	클로즈드

벤치마크 소개

MMLU-Pro

Massive Multitask Language Understanding Pro — 幅広い知識分野の理解能力を測定

LMArena Elo

LMArena（旧Chatbot Arena）のEloレーティング — ユーザー匿名盲テストによる総合評価