コーディング能力ランキング

SWE-bench Verified、LiveCodeBench、SWE-bench Pro、Aider-Polyglot によるプログラミング能力評価。

786 件のモデル

#	モデル名	開発元					オープンソース
1	Claude Fable 5	Anthropic	95.0	—	—	—	クローズド
2	Claude Mythos Preview	Anthropic	93.9	—	77.8	82.0	クローズド
3	Claude Opus 4.8	Anthropic	88.6	—	69.2	—	クローズド
4	Opus 4.7	Anthropic	87.6	—	64.3	69.4	クローズド
5	Claude Sonnet 5	Anthropic	85.2	—	—	—	クローズド
6	Claude Sonnet 4.5	Anthropic	82.0	71.0	43.6	—	クローズド
7	Opus 4.5	Anthropic	80.9	87.0	—	59.3	クローズド
8	Claude Opus 4.6	Anthropic	80.8	76.0	—	65.4	クローズド
9	Gemini 3.1 Pro Preview	Google DeepMind	80.6	91.7	54.2	68.5	クローズド
10	DeepSeek-V4-Pro	DeepSeek	80.6	56.8	—	67.9	クローズド
11	Qwen3.7-Max-Preview	アリババ	80.4	91.6	—	69.7	クローズド
12	Kimi K2.6	Moonshot AI	80.2	89.6	—	66.7	クローズド
13	MiniMax M2.5	MiniMax	80.2	—	55.4	51.7	クローズド
14	Claude Sonnet 4	Anthropic	80.2	66.0	42.7	—	クローズド
15	GPT-5.2	OpenAI	80.0	—	55.6	—	クローズド
16	Claude Sonnet 4.6	Anthropic	79.6	—	—	59.1	クローズド
17	DeepSeek-V4-Flash	DeepSeek	79.0	91.6	—	56.9	クローズド
18	Qwen 3.6 Plus Preview	アリババ	78.8	87.1	56.6	61.6	クローズド
19	Qwen3.6-Max-Preview	アリババ	78.8	87.1	—	65.4	クローズド
20	GLM-5	Zhipu AI	77.8	—	—	61.1	クローズド
21	Muse Spark	Meta AI	77.4	—	—	59.0	クローズド
22	Qwen3.6-27B	アリババ	77.2	83.9	—	59.3	クローズド
23	Kimi K2.5	Moonshot AI	76.8	85.0	—	50.8	クローズド
24	GPT-5.1-Codex-Max	OpenAI	76.8	—	—	—	クローズド
25	Qwen3.5-397B-A17B	アリババ	76.4	83.6	50.9	52.5	クローズド
26	GPT-5.1	OpenAI	76.3	—	50.8	47.6	クローズド
27	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	76.2	92.0	—	54.2	クローズド
28	Qwen3-Max-Thinking	アリババ	75.3	85.9	—	—	クローズド
29	o3-pro	OpenAI	75.0	—	—	—	クローズド
30	M2.1	MiniMax	74.8	—	32.6	47.9	クローズド

ベンチマークについて

SWE-bench Verified

実践的ソフトウェア開発タスク — 実際のバグ修正能力を測定

LiveCodeBench

リアルタイムコーディングベンチマーク — 最新のプログラミング問題への対応能力を測定

SWE-bench Pro

プロフェッショナルSWEベンチマーク — より複雑なソフトウェア開発タスクを測定

Aider-Polyglot

多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定