리더보드로 돌아가기

OpenClaw 랭킹

Claw Bench, Pinch Bench 기반 OpenClaw 에이전트 성능 평가.

761 모델

#모델명개발사오픈소스
1GLM-5-TurboZhipu AI93.886.5클로즈드
2Doubao Seed 2.0 Lite字节跳动Seed团队93.1클로즈드
3GPT-5.4OpenAI92.790.5클로즈드
4MiniMax M2.5MiniMax92.187.8클로즈드
5GLM-5Zhipu AI91.786.4클로즈드
6MiniMax-M2.7MiniMax91.787.1클로즈드
7Opus 4.5Anthropic91.587.2클로즈드
8Qwen3.5-35B-A3Bアリババ91.478.4클로즈드
9GLM-5V-TurboZhipu AI90.1클로즈드
10GPT-5.4 nanoOpenAI89.7클로즈드
11Haiku 4.5Anthropic89.482.0클로즈드
12Grok 4.1 FastxAI88.682.4클로즈드
13Claude Sonnet 4.5Anthropic88.188.2클로즈드
14Qwen3.5-122B-A10Bアリババ86.085.5클로즈드
15Gemini 3.0 FlashGoogle DeepMind85.785.2클로즈드
16Step 3.5 FlashStepFun84.985.3클로즈드
17Kimi K2 ThinkingMoonshot AI82.5클로즈드
18Kimi K2.5Moonshot AI81.784.8클로즈드
19Kimi K2.6Moonshot AI80.9클로즈드
20Gemini 2.5 Pro Experimental 03-25Google DeepMind80.471.9클로즈드
21DeepSeek V3.2DeepSeek79.084.3클로즈드
22Mistral Large 3Mistral78.672.2클로즈드
23Claude Sonnet 4Anthropic77.880.5클로즈드
24Qwen3-Coder-Nextアリババ75.879.1클로즈드
25GPT-5.4 miniOpenAI75.3클로즈드
26Qwen3.5-27Bアリババ75.290.0클로즈드
27Qwen3.6-27Bアリババ72.4클로즈드
28Nova 2 Liteアマゾン68.5클로즈드
29ERNIE 5.0 Thinking Previewバイドゥ51.0클로즈드
30Claude Mythos PreviewAnthropic클로즈드

벤치마크 소개

Claw Bench
OpenClawエージェントベンチマーク — OpenClawプラットフォームでのエージェント性能を測定
Pinch Bench
OpenClawピンチベンチマーク — OpenClawプラットフォームでのタスク遂行能力を測定