리더보드로 돌아가기

종합 랭킹 코딩 능력 수학 능력 AI 에이전트 능력 추론 능력 범용 성능 OpenClaw 랭킹

OpenClaw 랭킹

Claw Bench, Pinch Bench 기반 OpenClaw 에이전트 성능 평가.

761 모델

#	모델명	개발사			오픈소스
1	GLM-5-Turbo	Zhipu AI	93.8	86.5	클로즈드
2	Doubao Seed 2.0 Lite	字节跳动Seed团队	93.1	—	클로즈드
3	GPT-5.4	OpenAI	92.7	90.5	클로즈드
4	MiniMax M2.5	MiniMax	92.1	87.8	클로즈드
5	GLM-5	Zhipu AI	91.7	86.4	클로즈드
6	MiniMax-M2.7	MiniMax	91.7	87.1	클로즈드
7	Opus 4.5	Anthropic	91.5	87.2	클로즈드
8	Qwen3.5-35B-A3B	アリババ	91.4	78.4	클로즈드
9	GLM-5V-Turbo	Zhipu AI	90.1	—	클로즈드
10	GPT-5.4 nano	OpenAI	89.7	—	클로즈드
11	Haiku 4.5	Anthropic	89.4	82.0	클로즈드
12	Grok 4.1 Fast	xAI	88.6	82.4	클로즈드
13	Claude Sonnet 4.5	Anthropic	88.1	88.2	클로즈드
14	Qwen3.5-122B-A10B	アリババ	86.0	85.5	클로즈드
15	Gemini 3.0 Flash	Google DeepMind	85.7	85.2	클로즈드
16	Step 3.5 Flash	StepFun	84.9	85.3	클로즈드
17	Kimi K2 Thinking	Moonshot AI	82.5	—	클로즈드
18	Kimi K2.5	Moonshot AI	81.7	84.8	클로즈드
19	Kimi K2.6	Moonshot AI	80.9	—	클로즈드
20	Gemini 2.5 Pro Experimental 03-25	Google DeepMind	80.4	71.9	클로즈드
21	DeepSeek V3.2	DeepSeek	79.0	84.3	클로즈드
22	Mistral Large 3	Mistral	78.6	72.2	클로즈드
23	Claude Sonnet 4	Anthropic	77.8	80.5	클로즈드
24	Qwen3-Coder-Next	アリババ	75.8	79.1	클로즈드
25	GPT-5.4 mini	OpenAI	75.3	—	클로즈드
26	Qwen3.5-27B	アリババ	75.2	90.0	클로즈드
27	Qwen3.6-27B	アリババ	72.4	—	클로즈드
28	Nova 2 Lite	アマゾン	68.5	—	클로즈드
29	ERNIE 5.0 Thinking Preview	バイドゥ	51.0	—	클로즈드
30	Claude Mythos Preview	Anthropic	—	—	클로즈드

벤치마크 소개

Claw Bench

OpenClawエージェントベンチマーク — OpenClawプラットフォームでのエージェント性能を測定

Pinch Bench

OpenClawピンチベンチマーク — OpenClawプラットフォームでのタスク遂行能力を測定