리더보드로 돌아가기

AI 에이전트 능력

τ²-Bench, Terminal Bench Hard, Aider-Polyglot 기반 자율 에이전트 능력 평가.

761 모델

#모델명개발사오픈소스
1Claude Opus 4.6Anthropic91.991.965.4클로즈드
2Gemini 3.1 Pro PreviewGoogle DeepMind90.890.868.5클로즈드
3Gemini 3.0 FlashGoogle DeepMind90.290.247.6클로즈드
4GLM-5Zhipu AI89.789.761.1클로즈드
5Step 3.5 FlashStepFun88.288.251.0클로즈드
6GLM-4.7Zhipu AI87.487.441.0클로즈드
7Qwen3.5-397B-A17Bアリババ86.786.752.5클로즈드
8Gemini 3.0 Pro (Preview 11-2025)Google DeepMind85.485.454.2클로즈드
9Claude Sonnet 4.5Anthropic84.771.0클로즈드
10Grok 4.1 FastxAI82.782.7클로즈드
11Qwen3-Max-Thinkingアリババ82.182.1클로즈드
12GPT-5.2OpenAI82.082.0클로즈드
13Opus 4.5Anthropic82.082.059.3클로즈드
14DeepSeek V3.2DeepSeek80.380.346.4클로즈드
15GPT-5OpenAI80.080.0클로즈드
16GLM-4.7-FlashZhipu AI79.579.5클로즈드
17Qwen3.5-27Bアリババ79.079.041.6클로즈드
18MiniMax M2MiniMax77.277.2클로즈드
19Gemma 4 31BGoogle DeepMind76.976.9클로즈드
20GLM-4.6Zhipu AI75.975.9클로즈드
21Qwen3 Max (Preview)アリババ74.074.0클로즈드
22Claude Opus 4Anthropic72.572.5클로즈드
23Gemma 4 26B A4BGoogle DeepMind68.268.2클로즈드
24DeepSeek V3.2-ExpDeepSeek66.766.7클로즈드
25Kimi K2Moonshot AI64.364.3클로즈드
26Claude Sonnet 3.7Anthropic61.861.8클로즈드
27OpenAI o4 - miniOpenAI56.956.9클로즈드
28GPT-4.1OpenAI54.754.7클로즈드
29GPT-4.1 miniOpenAI53.053.0클로즈드
30Claude Sonnet 4Anthropic52.052.0클로즈드

벤치마크 소개

τ²-Bench
自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定
Terminal Bench Hard
ターミナルベースのエージェントタスク — CLI環境での自律的能力を測定
Aider-Polyglot
多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定