리더보드로 돌아가기

추론 능력

HLE, ARC-AGI-2, GPQA Diamond 기반 추론·사고 능력 평가.

761 모델

#모델명개발사오픈소스
1Claude Mythos PreviewAnthropic64.794.6클로즈드
2Claude Fable 5Anthropic59.0클로즈드
3GPT-5.4 ProOpenAI58.783.394.4클로즈드
4Muse SparkMeta AI58.042.589.5클로즈드
5Claude Opus 4.8Anthropic57.993.6클로즈드
6GPT-5.5 ProOpenAI57.284.6클로즈드
7GLM-5.2Zhipu AI54.791.2클로즈드
8Opus 4.7Anthropic54.775.894.2클로즈드
9Kimi K2.6Moonshot AI54.090.5클로즈드
10Qwen3.7-Max-Previewアリババ53.592.4클로즈드
11Claude Opus 4.6Anthropic53.066.391.3클로즈드
12GLM 5.1Zhipu AI52.3클로즈드
13GPT-5.5OpenAI52.285.093.6클로즈드
14GPT-5.4OpenAI52.177.192.8클로즈드
15Gemini 3.1 Pro PreviewGoogle DeepMind51.477.194.3클로즈드
16Kimi K2 ThinkingMoonshot AI51.0클로즈드
17Qwen 3.6 Plus Previewアリババ50.690.4클로즈드
18GLM-5Zhipu AI50.44.9클로즈드
19Kimi K2.5Moonshot AI50.211.8클로즈드
20Qwen3.6-Max-Previewアリババ50.290.4클로즈드
21GPT-5.2 ProOpenAI50.054.293.2클로즈드
22Qwen3-Max-Thinkingアリババ49.8클로즈드
23Claude Sonnet 4.6Anthropic49.058.389.9클로즈드
24Qwen3.5-27Bアリババ48.5클로즈드
25Gemini 3 Deep Think - 2620Google DeepMind48.484.6클로즈드
26Qwen3.5-397B-A17Bアリババ48.388.4클로즈드
27DeepSeek-V4-ProDeepSeek48.289.1클로즈드
28Gemini 3.0 Pro (Preview 11-2025)Google DeepMind45.845.191.0클로즈드
29GPT-5.2OpenAI45.554.292.4클로즈드
30DeepSeek-V4-FlashDeepSeek45.188.1클로즈드

벤치마크 소개

HLE
総合知能テスト — 人間レベルの推論能力を測定
ARC-AGI-2
抽象的推論ベンチマーク — 新規パターンの汎化能力を測定
GPQA Diamond
Graduate-Level Google-Proof Q&A — 大学院レベルの科学的推論能力を測定