리더보드로 돌아가기

코딩 능력

SWE-bench Verified, LiveCodeBench, SWE-bench Pro, Aider-Polyglot 기반 프로그래밍 능력 평가.

761 모델

#모델명개발사오픈소스
1Claude Fable 5Anthropic95.0클로즈드
2Claude Mythos PreviewAnthropic93.977.882.0클로즈드
3Claude Opus 4.8Anthropic88.669.2클로즈드
4Opus 4.7Anthropic87.664.369.4클로즈드
5Claude Sonnet 4.5Anthropic82.071.043.6클로즈드
6Claude Sonnet 5Anthropic82.0클로즈드
7Opus 4.5Anthropic80.987.059.3클로즈드
8Claude Opus 4.6Anthropic80.876.065.4클로즈드
9Gemini 3.1 Pro PreviewGoogle DeepMind80.691.754.268.5클로즈드
10DeepSeek-V4-ProDeepSeek80.656.867.9클로즈드
11Qwen3.7-Max-Previewアリババ80.491.669.7클로즈드
12Kimi K2.6Moonshot AI80.289.666.7클로즈드
13MiniMax M2.5MiniMax80.255.451.7클로즈드
14Claude Sonnet 4Anthropic80.266.042.7클로즈드
15GPT-5.2OpenAI80.055.6클로즈드
16Claude Sonnet 4.6Anthropic79.659.1클로즈드
17DeepSeek-V4-FlashDeepSeek79.091.656.9클로즈드
18Qwen 3.6 Plus Previewアリババ78.887.156.661.6클로즈드
19Qwen3.6-Max-Previewアリババ78.887.165.4클로즈드
20GLM-5Zhipu AI77.861.1클로즈드
21Muse SparkMeta AI77.459.0클로즈드
22Qwen3.6-27Bアリババ77.283.959.3클로즈드
23Kimi K2.5Moonshot AI76.885.050.8클로즈드
24GPT-5.1-Codex-MaxOpenAI76.8클로즈드
25Qwen3.5-397B-A17Bアリババ76.483.650.952.5클로즈드
26GPT-5.1OpenAI76.350.847.6클로즈드
27Gemini 3.0 Pro (Preview 11-2025)Google DeepMind76.292.054.2클로즈드
28Qwen3-Max-Thinkingアリババ75.385.9클로즈드
29o3-proOpenAI75.0클로즈드
30M2.1MiniMax74.832.647.9클로즈드

벤치마크 소개

SWE-bench Verified
実践的ソフトウェア開発タスク — 実際のバグ修正能力を測定
LiveCodeBench
リアルタイムコーディングベンチマーク — 最新のプログラミング問題への対応能力を測定
SWE-bench Pro
プロフェッショナルSWEベンチマーク — より複雑なソフトウェア開発タスクを測定
Aider-Polyglot
多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定