ブログ一覧に戻る
ベンチマーク

SWE-bench Verified 2026最新ランキング:90モデルのコーディング性能を徹底比較

SWE-bench Verifiedは、AIのコーディング能力を測定するベンチマークの中で最も信頼されている指標の一つだ。

このベンチマークは、500件の実際のGitHub Issueを人間のアノテーターが検証したサブセットで構成されている。Django、Flask、scikit-learnなどのオープンソースプロジェクトから抽出されており、現実のソフトウェアエンジニアリングタスクを反映している。

2026年5月時点で、90モデルがこのベンチマークで評価された。最新の結果を整理する。

トップ10:2026年5月時点

順位モデル開発元スコア価格(入力/出力 per 1M)ライセンス
1Claude Mythos PreviewAnthropic93.9%非公開Closed
2Claude Opus 4.7 (Adaptive)Anthropic87.6%$5.00 / $25.00Closed
3GPT-5.3 CodexOpenAI85.0%非公開Closed
4Claude Opus 4.5Anthropic80.9%非公開Closed
5Claude Opus 4.6Anthropic80.8%$5.00 / $25.00Closed
5DeepSeek V4 Pro (Max)DeepSeek80.6%$1.74 / $3.48Open
5Gemini 3.1 ProGoogle DeepMind80.6%$2.50 / $15.00Closed
8Kimi K2.6Moonshot AI80.2%$0.95 / $4.00Open
8MiniMax M2.5MiniMax80.2%$0.30 / $1.20Open
10GPT-5.2OpenAI80.0%$1.25 / $10.00Closed

分析:何が起きたのか

1. Anthropicの圧倒的優位

トップ5のうち4モデルがAnthropic製である。特にMythos Previewの93.9%というスコアは、2位のOpus 4.7(87.6%)に6.3ポイントの差をつけている。

Anthropicの強みは、単に一つのベンチマークに特化した結果ではない。SWE-bench、GPQA Diamond、HLEなど、複数のベンチマークでトップクラスを維持しており、汎用的なアーキテクチャの強力さを示している。

2. 中国モデルの台頭

2025年のSWE-benchでは、中国モデルはトップ10にほとんど入っていなかった。しかし、2026年5月の状況は大きく変化した。

モデル開発元スコア順位
DeepSeek V4 Pro (Max)DeepSeek80.6%5位
Kimi K2.6Moonshot AI80.2%8位
MiniMax M2.5MiniMax80.2%8位
Qwen3.6 PlusAlibaba78.8%12位
MiMo-V2-ProXiaomi78.0%13位
GLM-5Zhipu AI77.8%15位

トップ10に3つの中国モデルがランクインし、DeepSeek V4 ProはOpus 4.6やGemini 3.1 Proと同率5位を達成した。

特筆すべきはMiniMax M2.5だ。$0.30/$1.20という低価格で80.2%を達成し、トップ10の中で最もコスト効率の高いモデルとなった。

3. OpenAIの苦戦

GPT-5.2は80.0%で10位に留まっている。GPT-5.3 Codexは85%で3位だが、これはコーディング特化モデルであり汎用モデルではない。汎用モデルとしてのGPT-5.2は、DeepSeek V4 ProKimi K2.6に追い抜かれている状況だ。

4. Googleの位置

Gemini 3.1 Proが80.6%で同率5位である。Googleはフロンティアクラスの性能を維持しているが、突出してはいない。来月リリース予定のGemini 3.5 Proでどこまで挽回できるかが注目される。

価格対性能分析

SWE-benchスコアと価格の関係を分析すると、コストパフォーマンスの優位性が明確になる。

モデルスコア入力/1M出力/1Mスコア/ドル(出力)
MiniMax M2.580.2%$0.30$1.2066.8
DeepSeek V4 Pro (Max)80.6%$1.74$3.4823.2
Kimi K2.680.2%$0.95$4.0020.1
GPT-5.280.0%$1.25$10.008.0
Gemini 3.1 Pro80.6%$2.50$15.005.4
Claude Sonnet 4.679.6%$3.00$15.005.3
Claude Opus 4.680.8%$5.00$25.003.2
Claude Opus 4.787.6%$5.00$25.003.5

MiniMax M2.5のコストパフォーマンスは群を抜いている。Opus 4.6とほぼ同等のスコア(80.2% vs 80.8%)を、出力価格で20分の1以下で達成している。

ただし、SWE-benchはあくまで一つのベンチマークである。推論能力(HLE)、抽象的問題解決(ARC-AGI-2)、数学(FrontierMath)では異なる結果になる可能性がある点に注意が必要だ。

オープンソース vs クローズド

90モデルのライセンス別分布は以下の通りだ。

ライセンストップ10トップ20トップ50全90
Closed71225約50
Open3825約40

トップ10に3つのオープンソースモデル(DeepSeek V4 ProKimi K2.6MiniMax M2.5)が入っている。2025年にはトップ10にオープンソースモデルはほぼ皆無だったことを考えると、劇的な変化である。

ベンチマークの限界

SWE-bench Verifiedの評価対象は、主にPythonのオープンソースプロジェクトだ。そのため、高いスコアを出しても以下が保証されるわけではない:

  • 特定のコードベースでの性能:個別のプロジェクトで同等の性能が出るとは限らない。
  • 非Python言語の性能:JavaScript、TypeScript、Go、Rustなどでは結果が異なる可能性がある。
  • 長期的なタスク:単一のIssue解決を評価するものであり、数日〜数週間にわたるプロジェクト遂行能力は測定していない。
  • 創造的なコーディング:新機能の設計・実装は、バグ修正とは異なる能力が要求される。

2026年後半の見通し

SWE-bench Verifiedのスコアは急速に上限に近づいている。93.9%(Mythos)は、500問中469問以上を正解している計算だ。残りの31問は、人間のアノテーターが「解決可能」と判断したが、現状のモデルでは解けない難問である。

今後のフロンティアは以下の領域になると予想される:

  • SWE-bench Pro:より難易度の高いサブセットによる評価
  • Terminal-Bench 2.1:ターミナルベースのエージェントタスク
  • マルチファイル・マルチステップの長期プロジェクト遂行能力

まとめ

SWE-bench Verified 2026の結果は、AIコーディングの世界における3つの構造変化を示している。

第一に、Anthropicがコーディング領域の王者としての地位を確立した。Mythosの93.9%というスコアは圧倒的である。

第二に、中国モデルがフロンティアレベルに到達した。DeepSeek、Kimi、MiniMaxが80%超えを達成し、GPT-5.2やGemini 3.1 Proと肩を並べている。

第三に、コストパフォーマンスの劇的な改善だ。極めて低価格なMiniMax M2.5が80.2%を達成したことは、AIコーディングの民主化を意味している。

SWE-bench Verifiedは一つの指標に過ぎないが、AIが現実のソフトウェアエンジニアリング問題をどれだけ解決できるかを測る尺度として、極めて信頼性の高いベンチマークである。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...