ベンチマーク2026-05-26

SWE-bench Verified 2026最新ランキング：90モデルのコーディング性能を徹底比較

SWE-bench Verifiedは、AIのコーディング能力を測定するベンチマークの中で最も信頼されている指標の一つだ。

このベンチマークは、500件の実際のGitHub Issueを人間のアノテーターが検証したサブセットで構成されている。Django、Flask、scikit-learnなどのオープンソースプロジェクトから抽出されており、現実のソフトウェアエンジニアリングタスクを反映している。

2026年5月時点で、90モデルがこのベンチマークで評価された。最新の結果を整理する。

トップ10：2026年5月時点

順位	モデル	開発元	スコア	価格（入力/出力 per 1M）	ライセンス
1	Claude Mythos Preview	Anthropic	93.9%	非公開	Closed
2	Claude Opus 4.7 (Adaptive)	Anthropic	87.6%	$5.00 / $25.00	Closed
3	GPT-5.3 Codex	OpenAI	85.0%	非公開	Closed
4	Claude Opus 4.5	Anthropic	80.9%	非公開	Closed
5	Claude Opus 4.6	Anthropic	80.8%	$5.00 / $25.00	Closed
5	DeepSeek V4 Pro (Max)	DeepSeek	80.6%	$1.74 / $3.48	Open
5	Gemini 3.1 Pro	Google DeepMind	80.6%	$2.50 / $15.00	Closed
8	Kimi K2.6	Moonshot AI	80.2%	$0.95 / $4.00	Open
8	MiniMax M2.5	MiniMax	80.2%	$0.30 / $1.20	Open
10	GPT-5.2	OpenAI	80.0%	$1.25 / $10.00	Closed

分析：何が起きたのか

1. Anthropicの圧倒的優位

トップ5のうち4モデルがAnthropic製である。特にMythos Previewの93.9%というスコアは、2位のOpus 4.7（87.6%）に6.3ポイントの差をつけている。

Anthropicの強みは、単に一つのベンチマークに特化した結果ではない。SWE-bench、GPQA Diamond、HLEなど、複数のベンチマークでトップクラスを維持しており、汎用的なアーキテクチャの強力さを示している。

2. 中国モデルの台頭

2025年のSWE-benchでは、中国モデルはトップ10にほとんど入っていなかった。しかし、2026年5月の状況は大きく変化した。

モデル	開発元	スコア	順位
DeepSeek V4 Pro (Max)	DeepSeek	80.6%	5位
Kimi K2.6	Moonshot AI	80.2%	8位
MiniMax M2.5	MiniMax	80.2%	8位
Qwen3.6 Plus	Alibaba	78.8%	12位
MiMo-V2-Pro	Xiaomi	78.0%	13位
GLM-5	Zhipu AI	77.8%	15位

トップ10に3つの中国モデルがランクインし、DeepSeek V4 ProはOpus 4.6やGemini 3.1 Proと同率5位を達成した。

特筆すべきはMiniMax M2.5だ。$0.30/$1.20という低価格で80.2%を達成し、トップ10の中で最もコスト効率の高いモデルとなった。

3. OpenAIの苦戦

GPT-5.2は80.0%で10位に留まっている。GPT-5.3 Codexは85%で3位だが、これはコーディング特化モデルであり汎用モデルではない。汎用モデルとしてのGPT-5.2は、DeepSeek V4 ProやKimi K2.6に追い抜かれている状況だ。

4. Googleの位置

Gemini 3.1 Proが80.6%で同率5位である。Googleはフロンティアクラスの性能を維持しているが、突出してはいない。来月リリース予定のGemini 3.5 Proでどこまで挽回できるかが注目される。

価格対性能分析

SWE-benchスコアと価格の関係を分析すると、コストパフォーマンスの優位性が明確になる。

モデル	スコア	入力/1M	出力/1M	スコア/ドル（出力）
MiniMax M2.5	80.2%	$0.30	$1.20	66.8
DeepSeek V4 Pro (Max)	80.6%	$1.74	$3.48	23.2
Kimi K2.6	80.2%	$0.95	$4.00	20.1
GPT-5.2	80.0%	$1.25	$10.00	8.0
Gemini 3.1 Pro	80.6%	$2.50	$15.00	5.4
Claude Sonnet 4.6	79.6%	$3.00	$15.00	5.3
Claude Opus 4.6	80.8%	$5.00	$25.00	3.2
Claude Opus 4.7	87.6%	$5.00	$25.00	3.5

MiniMax M2.5のコストパフォーマンスは群を抜いている。Opus 4.6とほぼ同等のスコア（80.2% vs 80.8%）を、出力価格で20分の1以下で達成している。

ただし、SWE-benchはあくまで一つのベンチマークである。推論能力（HLE）、抽象的問題解決（ARC-AGI-2）、数学（FrontierMath）では異なる結果になる可能性がある点に注意が必要だ。

オープンソース vs クローズド

90モデルのライセンス別分布は以下の通りだ。

ライセンス	トップ10	トップ20	トップ50	全90
Closed	7	12	25	約50
Open	3	8	25	約40

トップ10に3つのオープンソースモデル（DeepSeek V4 Pro、Kimi K2.6、MiniMax M2.5）が入っている。2025年にはトップ10にオープンソースモデルはほぼ皆無だったことを考えると、劇的な変化である。

ベンチマークの限界

SWE-bench Verifiedの評価対象は、主にPythonのオープンソースプロジェクトだ。そのため、高いスコアを出しても以下が保証されるわけではない：

特定のコードベースでの性能：個別のプロジェクトで同等の性能が出るとは限らない。
非Python言語の性能：JavaScript、TypeScript、Go、Rustなどでは結果が異なる可能性がある。
長期的なタスク：単一のIssue解決を評価するものであり、数日〜数週間にわたるプロジェクト遂行能力は測定していない。
創造的なコーディング：新機能の設計・実装は、バグ修正とは異なる能力が要求される。

2026年後半の見通し

SWE-bench Verifiedのスコアは急速に上限に近づいている。93.9%（Mythos）は、500問中469問以上を正解している計算だ。残りの31問は、人間のアノテーターが「解決可能」と判断したが、現状のモデルでは解けない難問である。

今後のフロンティアは以下の領域になると予想される：

SWE-bench Pro：より難易度の高いサブセットによる評価
Terminal-Bench 2.1：ターミナルベースのエージェントタスク
マルチファイル・マルチステップの長期プロジェクト遂行能力

まとめ

SWE-bench Verified 2026の結果は、AIコーディングの世界における3つの構造変化を示している。

第一に、Anthropicがコーディング領域の王者としての地位を確立した。Mythosの93.9%というスコアは圧倒的である。

第二に、中国モデルがフロンティアレベルに到達した。DeepSeek、Kimi、MiniMaxが80%超えを達成し、GPT-5.2やGemini 3.1 Proと肩を並べている。

第三に、コストパフォーマンスの劇的な改善だ。極めて低価格なMiniMax M2.5が80.2%を達成したことは、AIコーディングの民主化を意味している。

SWE-bench Verifiedは一つの指標に過ぎないが、AIが現実のソフトウェアエンジニアリング問題をどれだけ解決できるかを測る尺度として、極めて信頼性の高いベンチマークである。

コメント (0)

シェア:X はてブ

読み込み中...

ブログ一覧に戻る