ランキング一覧に戻る

コーディング能力ランキング

SWE-bench Verified、LiveCodeBench、SWE-bench Pro、Aider-Polyglot によるプログラミング能力評価。

660 件のモデル

#モデル名開発元オープンソース
1Claude Mythos PreviewAnthropic93.977.882.0クローズド
2Opus 4.7Anthropic87.664.369.4クローズド
3Claude Sonnet 4.5Anthropic82.071.043.6クローズド
4Claude Sonnet 5Anthropic82.0クローズド
5Opus 4.5Anthropic80.987.059.3クローズド
6Claude Opus 4.6Anthropic80.876.065.4クローズド
7Gemini 3.1 Pro PreviewGoogle DeepMind80.691.754.268.5クローズド
8DeepSeek-V4-ProDeepSeek80.693.559.1クローズド
9Qwen3.7-Max-Previewアリババ80.491.669.7クローズド
10Kimi K2.6Moonshot AI80.289.666.7クローズド
11MiniMax M2.5MiniMax80.255.451.7クローズド
12Claude Sonnet 4Anthropic80.266.042.7クローズド
13GPT-5.2OpenAI80.055.6クローズド
14Claude Sonnet 4.6Anthropic79.659.1クローズド
15DeepSeek-V4-FlashDeepSeek79.091.656.9クローズド
16Qwen 3.6 Plus Previewアリババ78.887.156.661.6クローズド
17Qwen3.6-Max-Previewアリババ78.887.165.4クローズド
18GLM-5Zhipu AI77.861.1クローズド
19Muse SparkMeta AI77.459.0クローズド
20Qwen3.6-27Bアリババ77.283.959.3クローズド
21Kimi K2.5Moonshot AI76.885.050.8クローズド
22GPT-5.1-Codex-MaxOpenAI76.8クローズド
23Qwen3.5-397B-A17Bアリババ76.483.650.952.5クローズド
24GPT-5.1OpenAI76.350.847.6クローズド
25Gemini 3.0 Pro (Preview 11-2025)Google DeepMind76.292.054.2クローズド
26Qwen3-Max-Thinkingアリババ75.385.9クローズド
27o3-proOpenAI75.0クローズド
28M2.1MiniMax74.832.647.9クローズド
29Opus 4.1Anthropic74.5クローズド
30GPT-5 CodexOpenAI74.5クローズド

ベンチマークについて

SWE-bench Verified
実践的ソフトウェア開発タスク — 実際のバグ修正能力を測定
LiveCodeBench
リアルタイムコーディングベンチマーク — 最新のプログラミング問題への対応能力を測定
SWE-bench Pro
プロフェッショナルSWEベンチマーク — より複雑なソフトウェア開発タスクを測定
Aider-Polyglot
多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定