AI Agent Capability

Autonomous agent benchmarks: τ²-Bench, Terminal Bench Hard, Aider-Polyglot.

786 models

#	Model	Developer				Open Source
1	Claude Opus 4.6	Anthropic	91.9	91.9	65.4	Closed
2	Gemini 3.1 Pro Preview	Google DeepMind	90.8	90.8	68.5	Closed
3	Gemini 3.0 Flash	Google DeepMind	90.2	90.2	47.6	Closed
4	GLM-5	Zhipu AI	89.7	89.7	61.1	Closed
5	Step 3.5 Flash	StepFun	88.2	88.2	51.0	Closed
6	GLM-4.7	Zhipu AI	87.4	87.4	41.0	Closed
7	Qwen3.5-397B-A17B	アリババ	86.7	86.7	52.5	Closed
8	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	85.4	85.4	54.2	Closed
9	Claude Sonnet 4.5	Anthropic	84.7	71.0	—	Closed
10	Grok 4.1 Fast	xAI	82.7	82.7	—	Closed
11	Qwen3-Max-Thinking	アリババ	82.1	82.1	—	Closed
12	GPT-5.2	OpenAI	82.0	82.0	—	Closed
13	Opus 4.5	Anthropic	82.0	82.0	59.3	Closed
14	DeepSeek V3.2	DeepSeek	80.3	80.3	46.4	Closed
15	GPT-5	OpenAI	80.0	80.0	—	Closed
16	GLM-4.7-Flash	Zhipu AI	79.5	79.5	—	Closed
17	Qwen3.5-27B	アリババ	79.0	79.0	41.6	Closed
18	MiniMax M2	MiniMax	77.2	77.2	—	Closed
19	Gemma 4 31B	Google DeepMind	76.9	76.9	—	Closed
20	GLM-4.6	Zhipu AI	75.9	75.9	—	Closed
21	Qwen3 Max (Preview)	アリババ	74.0	74.0	—	Closed
22	Claude Opus 4	Anthropic	72.5	72.5	—	Closed
23	Gemma 4 26B A4B	Google DeepMind	68.2	68.2	—	Closed
24	DeepSeek V3.2-Exp	DeepSeek	66.7	66.7	—	Closed
25	Kimi K2	Moonshot AI	64.3	64.3	—	Closed
26	Claude Sonnet 3.7	Anthropic	61.8	61.8	—	Closed
27	OpenAI o4 - mini	OpenAI	56.9	56.9	—	Closed
28	GPT-4.1	OpenAI	54.7	54.7	—	Closed
29	GPT-4.1 mini	OpenAI	53.0	53.0	—	Closed
30	Claude Sonnet 4	Anthropic	52.0	52.0	—	Closed

About Benchmarks

τ²-Bench

自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定

Terminal Bench Hard

ターミナルベースのエージェントタスク — CLI環境での自律的能力を測定

Aider-Polyglot

多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定