리더보드로 돌아가기

범용 성능

MMLU-Pro, LMArena Elo 기반 종합 성능 평가.

761 모델

#모델명개발사오픈소스
1OpenAI o1OpenAI91.01.0클로즈드
2Gemini 3.0 Pro (Preview 11-2025)Google DeepMind90.01.0클로즈드
3Opus 4.5Anthropic90.0클로즈드
4Qwen3.7-Max-Previewアリババ89.61.0클로즈드
5Qwen 3.6 Plus Previewアリババ88.51.0클로즈드
6Qwen3.6-Max-Previewアリババ88.51.0클로즈드
7Claude Sonnet 4.5Anthropic88.01.0클로즈드
8M2.1MiniMax88.01.0클로즈드
9Opus 4.1Anthropic88.01.0클로즈드
10Qwen3.5-397B-A17Bアリババ87.81.0클로즈드
11Hunyuan-T1テンセントAI研究所87.21.0클로즈드
12DeepSeek-V4-ProDeepSeek87.11.0클로즈드
13Grok 4xAI87.01.0클로즈드
14DeepSeek-V4-FlashDeepSeek86.21.0클로즈드
15Qwen3.6-27Bアリババ86.2클로즈드
16Qwen3.5-27Bアリババ86.11.0클로즈드
17GPT-4.5OpenAI86.11.0클로즈드
18Gemini 2.5-ProGoogle DeepMind86.0클로즈드
19Qwen3-Max-Thinkingアリババ85.7클로즈드
20OpenAI o3OpenAI85.61.0클로즈드
21Gemma 4 31BGoogle DeepMind85.21.0클로즈드
22Qwen3.6-35B-A3Bアリババ85.2클로즈드
23DeepSeek-V3.1 TerminusDeepSeek85.01.0클로즈드
24DeepSeek V3.2-ExpDeepSeek85.01.0클로즈드
25DeepSeek-R1-0528DeepSeek85.01.0클로즈드
26Grok 4.1 FastxAI85.0클로즈드
27DeepSeek-V3.1DeepSeek85.01.0클로즈드
28Claude Opus 4Anthropic85.01.0클로즈드
29GLM-4.5Zhipu AI84.61.0클로즈드
30Claude Mythos PreviewAnthropic클로즈드

벤치마크 소개

MMLU-Pro
Massive Multitask Language Understanding Pro — 幅広い知識分野の理解能力を測定
LMArena Elo
LMArena(旧Chatbot Arena)のEloレーティング — ユーザー匿名盲テストによる総合評価