리더보드로 돌아가기

종합 랭킹 코딩 능력 수학 능력 AI 에이전트 능력 추론 능력 범용 성능 OpenClaw 랭킹

AI 에이전트 능력

τ²-Bench, Terminal Bench Hard, Aider-Polyglot 기반 자율 에이전트 능력 평가.

761 모델

#	모델명	개발사				오픈소스
1	Claude Opus 4.6	Anthropic	91.9	91.9	65.4	클로즈드
2	Gemini 3.1 Pro Preview	Google DeepMind	90.8	90.8	68.5	클로즈드
3	Gemini 3.0 Flash	Google DeepMind	90.2	90.2	47.6	클로즈드
4	GLM-5	Zhipu AI	89.7	89.7	61.1	클로즈드
5	Step 3.5 Flash	StepFun	88.2	88.2	51.0	클로즈드
6	GLM-4.7	Zhipu AI	87.4	87.4	41.0	클로즈드
7	Qwen3.5-397B-A17B	アリババ	86.7	86.7	52.5	클로즈드
8	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	85.4	85.4	54.2	클로즈드
9	Claude Sonnet 4.5	Anthropic	84.7	71.0	—	클로즈드
10	Grok 4.1 Fast	xAI	82.7	82.7	—	클로즈드
11	Qwen3-Max-Thinking	アリババ	82.1	82.1	—	클로즈드
12	GPT-5.2	OpenAI	82.0	82.0	—	클로즈드
13	Opus 4.5	Anthropic	82.0	82.0	59.3	클로즈드
14	DeepSeek V3.2	DeepSeek	80.3	80.3	46.4	클로즈드
15	GPT-5	OpenAI	80.0	80.0	—	클로즈드
16	GLM-4.7-Flash	Zhipu AI	79.5	79.5	—	클로즈드
17	Qwen3.5-27B	アリババ	79.0	79.0	41.6	클로즈드
18	MiniMax M2	MiniMax	77.2	77.2	—	클로즈드
19	Gemma 4 31B	Google DeepMind	76.9	76.9	—	클로즈드
20	GLM-4.6	Zhipu AI	75.9	75.9	—	클로즈드
21	Qwen3 Max (Preview)	アリババ	74.0	74.0	—	클로즈드
22	Claude Opus 4	Anthropic	72.5	72.5	—	클로즈드
23	Gemma 4 26B A4B	Google DeepMind	68.2	68.2	—	클로즈드
24	DeepSeek V3.2-Exp	DeepSeek	66.7	66.7	—	클로즈드
25	Kimi K2	Moonshot AI	64.3	64.3	—	클로즈드
26	Claude Sonnet 3.7	Anthropic	61.8	61.8	—	클로즈드
27	OpenAI o4 - mini	OpenAI	56.9	56.9	—	클로즈드
28	GPT-4.1	OpenAI	54.7	54.7	—	클로즈드
29	GPT-4.1 mini	OpenAI	53.0	53.0	—	클로즈드
30	Claude Sonnet 4	Anthropic	52.0	52.0	—	클로즈드

벤치마크 소개

τ²-Bench

自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定

Terminal Bench Hard

ターミナルベースのエージェントタスク — CLI環境での自律的能力を測定

Aider-Polyglot

多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定