SWE-bench Verified 2026最新ランキング:90モデルのコーディング性能を徹底比較
SWE-bench Verifiedは、AIのコーディング能力を測定するベンチマークの中で最も信頼されている指標の一つだ。
このベンチマークは、500件の実際のGitHub Issueを人間のアノテーターが検証したサブセットで構成されている。Django、Flask、scikit-learnなどのオープンソースプロジェクトから抽出されており、現実のソフトウェアエンジニアリングタスクを反映している。
2026年5月時点で、90モデルがこのベンチマークで評価された。最新の結果を整理する。
トップ10:2026年5月時点
| 順位 | モデル | 開発元 | スコア | 価格(入力/出力 per 1M) | ライセンス |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 93.9% | 非公開 | Closed |
| 2 | Claude Opus 4.7 (Adaptive) | Anthropic | 87.6% | $5.00 / $25.00 | Closed |
| 3 | GPT-5.3 Codex | OpenAI | 85.0% | 非公開 | Closed |
| 4 | Claude Opus 4.5 | Anthropic | 80.9% | 非公開 | Closed |
| 5 | Claude Opus 4.6 | Anthropic | 80.8% | $5.00 / $25.00 | Closed |
| 5 | DeepSeek V4 Pro (Max) | DeepSeek | 80.6% | $1.74 / $3.48 | Open |
| 5 | Gemini 3.1 Pro | Google DeepMind | 80.6% | $2.50 / $15.00 | Closed |
| 8 | Kimi K2.6 | Moonshot AI | 80.2% | $0.95 / $4.00 | Open |
| 8 | MiniMax M2.5 | MiniMax | 80.2% | $0.30 / $1.20 | Open |
| 10 | GPT-5.2 | OpenAI | 80.0% | $1.25 / $10.00 | Closed |
分析:何が起きたのか
1. Anthropicの圧倒的優位
トップ5のうち4モデルがAnthropic製である。特にMythos Previewの93.9%というスコアは、2位のOpus 4.7(87.6%)に6.3ポイントの差をつけている。
Anthropicの強みは、単に一つのベンチマークに特化した結果ではない。SWE-bench、GPQA Diamond、HLEなど、複数のベンチマークでトップクラスを維持しており、汎用的なアーキテクチャの強力さを示している。
2. 中国モデルの台頭
2025年のSWE-benchでは、中国モデルはトップ10にほとんど入っていなかった。しかし、2026年5月の状況は大きく変化した。
| モデル | 開発元 | スコア | 順位 |
|---|---|---|---|
| DeepSeek V4 Pro (Max) | DeepSeek | 80.6% | 5位 |
| Kimi K2.6 | Moonshot AI | 80.2% | 8位 |
| MiniMax M2.5 | MiniMax | 80.2% | 8位 |
| Qwen3.6 Plus | Alibaba | 78.8% | 12位 |
| MiMo-V2-Pro | Xiaomi | 78.0% | 13位 |
| GLM-5 | Zhipu AI | 77.8% | 15位 |
トップ10に3つの中国モデルがランクインし、DeepSeek V4 ProはOpus 4.6やGemini 3.1 Proと同率5位を達成した。
特筆すべきはMiniMax M2.5だ。$0.30/$1.20という低価格で80.2%を達成し、トップ10の中で最もコスト効率の高いモデルとなった。
3. OpenAIの苦戦
GPT-5.2は80.0%で10位に留まっている。GPT-5.3 Codexは85%で3位だが、これはコーディング特化モデルであり汎用モデルではない。汎用モデルとしてのGPT-5.2は、DeepSeek V4 ProやKimi K2.6に追い抜かれている状況だ。
4. Googleの位置
Gemini 3.1 Proが80.6%で同率5位である。Googleはフロンティアクラスの性能を維持しているが、突出してはいない。来月リリース予定のGemini 3.5 Proでどこまで挽回できるかが注目される。
価格対性能分析
SWE-benchスコアと価格の関係を分析すると、コストパフォーマンスの優位性が明確になる。
| モデル | スコア | 入力/1M | 出力/1M | スコア/ドル(出力) |
|---|---|---|---|---|
| MiniMax M2.5 | 80.2% | $0.30 | $1.20 | 66.8 |
| DeepSeek V4 Pro (Max) | 80.6% | $1.74 | $3.48 | 23.2 |
| Kimi K2.6 | 80.2% | $0.95 | $4.00 | 20.1 |
| GPT-5.2 | 80.0% | $1.25 | $10.00 | 8.0 |
| Gemini 3.1 Pro | 80.6% | $2.50 | $15.00 | 5.4 |
| Claude Sonnet 4.6 | 79.6% | $3.00 | $15.00 | 5.3 |
| Claude Opus 4.6 | 80.8% | $5.00 | $25.00 | 3.2 |
| Claude Opus 4.7 | 87.6% | $5.00 | $25.00 | 3.5 |
MiniMax M2.5のコストパフォーマンスは群を抜いている。Opus 4.6とほぼ同等のスコア(80.2% vs 80.8%)を、出力価格で20分の1以下で達成している。
ただし、SWE-benchはあくまで一つのベンチマークである。推論能力(HLE)、抽象的問題解決(ARC-AGI-2)、数学(FrontierMath)では異なる結果になる可能性がある点に注意が必要だ。
オープンソース vs クローズド
90モデルのライセンス別分布は以下の通りだ。
| ライセンス | トップ10 | トップ20 | トップ50 | 全90 |
|---|---|---|---|---|
| Closed | 7 | 12 | 25 | 約50 |
| Open | 3 | 8 | 25 | 約40 |
トップ10に3つのオープンソースモデル(DeepSeek V4 Pro、Kimi K2.6、MiniMax M2.5)が入っている。2025年にはトップ10にオープンソースモデルはほぼ皆無だったことを考えると、劇的な変化である。
ベンチマークの限界
SWE-bench Verifiedの評価対象は、主にPythonのオープンソースプロジェクトだ。そのため、高いスコアを出しても以下が保証されるわけではない:
- 特定のコードベースでの性能:個別のプロジェクトで同等の性能が出るとは限らない。
- 非Python言語の性能:JavaScript、TypeScript、Go、Rustなどでは結果が異なる可能性がある。
- 長期的なタスク:単一のIssue解決を評価するものであり、数日〜数週間にわたるプロジェクト遂行能力は測定していない。
- 創造的なコーディング:新機能の設計・実装は、バグ修正とは異なる能力が要求される。
2026年後半の見通し
SWE-bench Verifiedのスコアは急速に上限に近づいている。93.9%(Mythos)は、500問中469問以上を正解している計算だ。残りの31問は、人間のアノテーターが「解決可能」と判断したが、現状のモデルでは解けない難問である。
今後のフロンティアは以下の領域になると予想される:
- SWE-bench Pro:より難易度の高いサブセットによる評価
- Terminal-Bench 2.1:ターミナルベースのエージェントタスク
- マルチファイル・マルチステップの長期プロジェクト遂行能力
まとめ
SWE-bench Verified 2026の結果は、AIコーディングの世界における3つの構造変化を示している。
第一に、Anthropicがコーディング領域の王者としての地位を確立した。Mythosの93.9%というスコアは圧倒的である。
第二に、中国モデルがフロンティアレベルに到達した。DeepSeek、Kimi、MiniMaxが80%超えを達成し、GPT-5.2やGemini 3.1 Proと肩を並べている。
第三に、コストパフォーマンスの劇的な改善だ。極めて低価格なMiniMax M2.5が80.2%を達成したことは、AIコーディングの民主化を意味している。
SWE-bench Verifiedは一つの指標に過ぎないが、AIが現実のソフトウェアエンジニアリング問題をどれだけ解決できるかを測る尺度として、極めて信頼性の高いベンチマークである。
読み込み中...