코딩 능력

SWE-bench Verified, LiveCodeBench, SWE-bench Pro, Aider-Polyglot 기반 프로그래밍 능력 평가.

761 모델

#	모델명	개발사					오픈소스
1	Claude Fable 5	Anthropic	95.0	—	—	—	클로즈드
2	Claude Mythos Preview	Anthropic	93.9	—	77.8	82.0	클로즈드
3	Claude Opus 4.8	Anthropic	88.6	—	69.2	—	클로즈드
4	Opus 4.7	Anthropic	87.6	—	64.3	69.4	클로즈드
5	Claude Sonnet 4.5	Anthropic	82.0	71.0	43.6	—	클로즈드
6	Claude Sonnet 5	Anthropic	82.0	—	—	—	클로즈드
7	Opus 4.5	Anthropic	80.9	87.0	—	59.3	클로즈드
8	Claude Opus 4.6	Anthropic	80.8	76.0	—	65.4	클로즈드
9	Gemini 3.1 Pro Preview	Google DeepMind	80.6	91.7	54.2	68.5	클로즈드
10	DeepSeek-V4-Pro	DeepSeek	80.6	56.8	—	67.9	클로즈드
11	Qwen3.7-Max-Preview	アリババ	80.4	91.6	—	69.7	클로즈드
12	Kimi K2.6	Moonshot AI	80.2	89.6	—	66.7	클로즈드
13	MiniMax M2.5	MiniMax	80.2	—	55.4	51.7	클로즈드
14	Claude Sonnet 4	Anthropic	80.2	66.0	42.7	—	클로즈드
15	GPT-5.2	OpenAI	80.0	—	55.6	—	클로즈드
16	Claude Sonnet 4.6	Anthropic	79.6	—	—	59.1	클로즈드
17	DeepSeek-V4-Flash	DeepSeek	79.0	91.6	—	56.9	클로즈드
18	Qwen 3.6 Plus Preview	アリババ	78.8	87.1	56.6	61.6	클로즈드
19	Qwen3.6-Max-Preview	アリババ	78.8	87.1	—	65.4	클로즈드
20	GLM-5	Zhipu AI	77.8	—	—	61.1	클로즈드
21	Muse Spark	Meta AI	77.4	—	—	59.0	클로즈드
22	Qwen3.6-27B	アリババ	77.2	83.9	—	59.3	클로즈드
23	Kimi K2.5	Moonshot AI	76.8	85.0	—	50.8	클로즈드
24	GPT-5.1-Codex-Max	OpenAI	76.8	—	—	—	클로즈드
25	Qwen3.5-397B-A17B	アリババ	76.4	83.6	50.9	52.5	클로즈드
26	GPT-5.1	OpenAI	76.3	—	50.8	47.6	클로즈드
27	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	76.2	92.0	—	54.2	클로즈드
28	Qwen3-Max-Thinking	アリババ	75.3	85.9	—	—	클로즈드
29	o3-pro	OpenAI	75.0	—	—	—	클로즈드
30	M2.1	MiniMax	74.8	—	32.6	47.9	클로즈드

벤치마크 소개

SWE-bench Verified

実践的ソフトウェア開発タスク — 実際のバグ修正能力を測定

LiveCodeBench

リアルタイムコーディングベンチマーク — 最新のプログラミング問題への対応能力を測定

SWE-bench Pro

プロフェッショナルSWEベンチマーク — より複雑なソフトウェア開発タスクを測定

Aider-Polyglot

多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定