ランキング一覧に戻る

AIエージェント能力ランキング

τ²-Bench、Terminal Bench Hard、Aider-Polyglot による自律エージェント能力評価。

698 件のモデル

#モデル名開発元オープンソース
1Claude Opus 4.6Anthropic91.991.965.4クローズド
2Gemini 3.1 Pro PreviewGoogle DeepMind90.890.868.5クローズド
3Gemini 3.0 FlashGoogle DeepMind90.290.247.6クローズド
4GLM-5Zhipu AI89.789.761.1クローズド
5Step 3.5 FlashStepFun88.288.251.0クローズド
6GLM-4.7Zhipu AI87.487.441.0クローズド
7Qwen3.5-397B-A17Bアリババ86.786.752.5クローズド
8Gemini 3.0 Pro (Preview 11-2025)Google DeepMind85.485.454.2クローズド
9Claude Sonnet 4.5Anthropic84.771.0クローズド
10Grok 4.1 FastxAI82.782.7クローズド
11Qwen3-Max-Thinkingアリババ82.182.1クローズド
12GPT-5.2OpenAI82.082.0クローズド
13Opus 4.5Anthropic82.082.059.3クローズド
14DeepSeek V3.2DeepSeek80.380.346.4クローズド
15GPT-5OpenAI80.080.0クローズド
16GLM-4.7-FlashZhipu AI79.579.5クローズド
17Qwen3.5-27Bアリババ79.079.041.6クローズド
18MiniMax M2MiniMax77.277.2クローズド
19Gemma 4 31BGoogle DeepMind76.976.9クローズド
20GLM-4.6Zhipu AI75.975.9クローズド
21Qwen3 Max (Preview)アリババ74.074.0クローズド
22Claude Opus 4Anthropic72.572.5クローズド
23Gemma 4 26B A4BGoogle DeepMind68.268.2クローズド
24DeepSeek V3.2-ExpDeepSeek66.766.7クローズド
25Kimi K2Moonshot AI64.364.3クローズド
26Claude Sonnet 3.7Anthropic61.861.8クローズド
27OpenAI o4 - miniOpenAI56.956.9クローズド
28GPT-4.1OpenAI54.754.7クローズド
29GPT-4.1 miniOpenAI53.053.0クローズド
30Claude Sonnet 4Anthropic52.052.0クローズド

ベンチマークについて

τ²-Bench
自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定
Terminal Bench Hard
ターミナルベースのエージェントタスク — CLI環境での自律的能力を測定
Aider-Polyglot
多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定