OpenClaw Ranking

OpenClaw agent performance: Claw Bench and Pinch Bench.

786 models

#	Model	Developer			Open Source
1	GLM-5-Turbo	Zhipu AI	93.8	86.5	Closed
2	Doubao Seed 2.0 Lite	字节跳动Seed团队	93.1	—	Closed
3	GPT-5.4	OpenAI	92.7	90.5	Closed
4	MiniMax M2.5	MiniMax	92.1	87.8	Closed
5	GLM-5	Zhipu AI	91.7	86.4	Closed
6	MiniMax-M2.7	MiniMax	91.7	87.1	Closed
7	Opus 4.5	Anthropic	91.5	87.2	Closed
8	Qwen3.5-35B-A3B	アリババ	91.4	78.4	Closed
9	GLM-5V-Turbo	Zhipu AI	90.1	—	Closed
10	GPT-5.4 nano	OpenAI	89.7	—	Closed
11	Haiku 4.5	Anthropic	89.4	82.0	Closed
12	Grok 4.1 Fast	xAI	88.6	82.4	Closed
13	Claude Sonnet 4.5	Anthropic	88.1	88.2	Closed
14	Qwen3.5-122B-A10B	アリババ	86.0	85.5	Closed
15	Gemini 3.0 Flash	Google DeepMind	85.7	85.2	Closed
16	Step 3.5 Flash	StepFun	84.9	85.3	Closed
17	Kimi K2 Thinking	Moonshot AI	82.5	—	Closed
18	Kimi K2.5	Moonshot AI	81.7	84.8	Closed
19	Kimi K2.6	Moonshot AI	80.9	—	Closed
20	Gemini 2.5 Pro Experimental 03-25	Google DeepMind	80.4	71.9	Closed
21	DeepSeek V3.2	DeepSeek	79.0	84.3	Closed
22	Mistral Large 3	Mistral	78.6	72.2	Closed
23	Claude Sonnet 4	Anthropic	77.8	80.5	Closed
24	Qwen3-Coder-Next	アリババ	75.8	79.1	Closed
25	GPT-5.4 mini	OpenAI	75.3	—	Closed
26	Qwen3.5-27B	アリババ	75.2	90.0	Closed
27	Qwen3.6-27B	アリババ	72.4	—	Closed
28	Nova 2 Lite	アマゾン	68.5	—	Closed
29	ERNIE 5.0 Thinking Preview	バイドゥ	51.0	—	Closed
30	Claude Mythos Preview	Anthropic	—	—	Closed

About Benchmarks

Claw Bench

OpenClawエージェントベンチマーク — OpenClawプラットフォームでのエージェント性能を測定

Pinch Bench

OpenClawピンチベンチマーク — OpenClawプラットフォームでのタスク遂行能力を測定