ベンチマーク2026-05-27

Qwen3.7 vs Claude Opus 4.7 vs GPT-5.5：2026年のフロンティアモデル性能比較

2026年5月、AI業界は異常な同時多発リリースを迎えた。

AlibabaのQwen3.7-Max（5月19日）、AnthropicのClaude Opus 4.7（4月16日）、OpenAIのGPT-5.5という3つのフロンティアモデルがわずか5週間以内に登場し、リーダーボードの順位は激しく変動している。

「どのモデルが最強か」という問いに答えるため、主要ベンチマークの実データを整理した。

コーディング能力：SWE-benchで測る現実の問題解決力

SWE-bench Verifiedは、DjangoやFlaskなどの実際のGitHub Issueを解決するAIコーディング能力のゴールドスタンダードだ。

モデル	SWE-bench Verified	SWE-bench Pro	Terminal-Bench 2.0
Claude Opus 4.7	87.6%	—	—
Claude Opus 4.6	80.8%	—	—
Qwen3.7-Max	80.4%	60.6%	69.7%
DeepSeek V4 Pro	80.6%	—	67.9%
GPT-5.2	80.0%	—	—

Claude Opus 4.7の87.6%は圧倒的だ。しかしQwen3.7-Maxの80.4%はOpus 4.6（80.8%）とほぼ同レベルであり、DeepSeek V4 Pro（80.6%）と肩を並べている。

特筆すべきはTerminal-Bench 2.0だ。ターミナルベースのエージェントタスクでQwen3.7-Maxが69.7%を記録し、DeepSeek V4 Pro（67.9%）を上回った。これはエージェントとしての「実行能力」が他モデルより高いことを示している。

推論能力：GPQA DiamondとHLE

博士レベルの科学問題を測るGPQA Diamondと、Humanity's Last Exam（HLE）で比較する。

モデル	GPQA Diamond	HLE	HMMT 2026
Qwen3.7-Max	92.4%	41.4%	97.1%
Claude Opus 4.6	91.3%	40.0%	—
GPT-5.4 Pro	94.4%	58.7%	—
Gemini 3.1 Pro	94.3%	—	—

GPQA DiamondではQwen3.7-Maxが92.4%でOpus 4.6（91.3%）を上回った。しかしHLEではGPT-5.4 Proの58.7%が突出しており、Qwen3.7-Max（41.4%）やOpus 4.6（40.0%）とは大きな差がある。

HLEは「人類最後の試験」と呼ばれ、最も難しい推論ベンチマークの一つだ。GPT-5.4 Proがこの分野で圧倒的優位を示していることは、OpenAIの推論アーキテクチャ（o系モデルの延長線上）がこの種のタスクに強いことを示唆している。

エージェント性能：MCPとツール呼び出し

2026年のAIモデル競争の新たなフロンティアは「エージェント性能」だ。モデルがどれだけ自律的にタスクを実行できるかを測る指標をまとめる。

モデル	MCP-Mark	MCP-Atlas	SpreadSheetBench
Qwen3.7-Max	60.8%	76.4%	87.0%
Claude Opus 4.6	—	75.8%	—
GLM-5.1	57.5%	—	—
Kimi K2.6	—	—	—

Qwen3.7-MaxはMCP-Mark（60.8%）でGLM-5.1（57.5%）を、MCP-Atlas（76.4%）でOpus 4.6（75.8%）をそれぞれ上回った。SpreadSheetBench-v1の87.0%は、表計算タスクでの優位性を示している。

コンテキストウィンドウと出力制限

モデル	コンテキスト	最大出力
Qwen3.7-Max	1,000,000	64,000
Claude Opus 4.7	200,000	128,000
GPT-5.5	1,000,000	—
Gemini 3.0 Pro	2,000,000	—

Qwen3.7-MaxとGPT-5.5は100万トークンのコンテキストを持つ。Claude Opus 4.7は20万トークンとフロンティアモデルの中で最小であり、大規模コードベースの処理には制約がある。

一方で、Opus 4.7は最大出力128,000トークンとなっており、長文生成に強い。

価格比較：フロンティアモデルのコスト構造

モデル	入力/1M	出力/1M	コンテキスト
Qwen3.7-Max	$2.50	$7.50	1M
Claude Opus 4.7	$5.00	$25.00	200K
GPT-5.2	$1.25	$10.00	256K
DeepSeek V4 Pro	$1.74	$3.48	1M
Gemini 3.1 Pro	$2.50	$15.00	1M

Qwen3.7-Maxの$2.50/$7.50は、Opus 4.7（$5/$25）の3分の1以下だ。GPQA DiamondでOpus 4.6を上回りながら、価格は大幅に安い。

コストパフォーマンスで見ると以下のようになる。

モデル	GPQA Diamond	出力/1M	スコア/ドル
Qwen3.7-Max	92.4%	$7.50	12.3
Claude Opus 4.6	91.3%	$25.00	3.7
DeepSeek V4 Pro	—	$3.48	—
GPT-5.2	—	$10.00	—

Qwen3.7-MaxのコスパはOpus 4.6の3.3倍だ。

注意点：verbosity（冗長性）の問題

Artificial Analysisの評価によると、Qwen3.7-Maxは評価中に約9,700万トークンを生成した。中央値は2,400万トークンであり、これは4倍の冗長性を意味する。

長時間のエージェントセッションでは、この冗長性がコストに直結する。出力価格が$7.50/1Mトークンであっても、4倍の出力があれば実質的なコストは$30/1Mに近づき、Opus 4.7の$25/1Mとの差は縮まる。

まとめ：用途別モデル選択

用途	最適モデル	理由
コーディング（最高品質）	Claude Opus 4.7	SWE-bench 87.6%、圧倒的差
推論・科学（GPQA系）	Qwen3.7-Max	GPQA 92.4%、コスパ最高
数学・競技プログラミング	GPT-5.4 Pro	HLE 58.7%、FrontierMath最高
エージェント（長時間実行）	Qwen3.7-Max	35時間自律実行、MCP最強
大規模コードベース	Gemini 3.1 Pro	2Mコンテキスト
予算制限あり	DeepSeek V4 Pro	$1.74/$3.48、80.6% SWE-bench

2026年5月のフロンティアモデル戦争で明らかなのは、「最強」は存在しないということだ。SWE-benchではClaude、推論ではQwen3.7、数学ではGPT-5.4、コストではDeepSeekというように、各モデルが異なる分野で優位性を持っている。

モデル選択は「どれが最強か」ではなく、「自分のユースケースにどれが最適か」で決めるべきだ。

各モデルの最新ベンチマークスコアとAPI料金の詳細は、AI Models Naviのベンチマーク比較ページで確認できる。

[OpenAIが「GPT-5.5（コードネーム：Spud）」をリリース：エージェント能力が大幅向上、API提供は安全審査のため順次開始へ](/blog/openai-gpt-5-5-spud-release)
[Anthropicが「Claude Opus 4.7」をリリース：コーディング能力と視覚解像度が大幅向上、初のサイバーセキュリティ保護機能を搭載](/blog/anthropic-claude-opus-4-7-software-engineering)
Qwen3.7完全ガイド：Max・Plusの性能・料金・API利用法を徹底解説

コメント (0)

シェア:X はてブ

読み込み中...

ブログ一覧に戻る