ブログ一覧に戻る
ベンチマーク

Qwen3.7 vs Claude Opus 4.7 vs GPT-5.5:2026年のフロンティアモデル性能比較

2026年5月、AI業界は異常な同時多発リリースを迎えた。

AlibabaのQwen3.7-Max(5月19日)、AnthropicのClaude Opus 4.7(4月16日)、OpenAIのGPT-5.5という3つのフロンティアモデルがわずか5週間以内に登場し、リーダーボードの順位は激しく変動している。

「どのモデルが最強か」という問いに答えるため、主要ベンチマークの実データを整理した。

コーディング能力:SWE-benchで測る現実の問題解決力

SWE-bench Verifiedは、DjangoやFlaskなどの実際のGitHub Issueを解決するAIコーディング能力のゴールドスタンダードだ。

モデルSWE-bench VerifiedSWE-bench ProTerminal-Bench 2.0
Claude Opus 4.787.6%
Claude Opus 4.680.8%
Qwen3.7-Max80.4%60.6%69.7%
DeepSeek V4 Pro80.6%67.9%
GPT-5.280.0%

Claude Opus 4.7の87.6%は圧倒的だ。しかしQwen3.7-Maxの80.4%はOpus 4.6(80.8%)とほぼ同レベルであり、DeepSeek V4 Pro(80.6%)と肩を並べている。

特筆すべきはTerminal-Bench 2.0だ。ターミナルベースのエージェントタスクでQwen3.7-Maxが69.7%を記録し、DeepSeek V4 Pro(67.9%)を上回った。これはエージェントとしての「実行能力」が他モデルより高いことを示している。

推論能力:GPQA DiamondとHLE

博士レベルの科学問題を測るGPQA Diamondと、Humanity's Last Exam(HLE)で比較する。

モデルGPQA DiamondHLEHMMT 2026
Qwen3.7-Max92.4%41.4%97.1%
Claude Opus 4.691.3%40.0%
GPT-5.4 Pro94.4%58.7%
Gemini 3.1 Pro94.3%

GPQA DiamondではQwen3.7-Maxが92.4%でOpus 4.6(91.3%)を上回った。しかしHLEではGPT-5.4 Proの58.7%が突出しており、Qwen3.7-Max(41.4%)やOpus 4.6(40.0%)とは大きな差がある。

HLEは「人類最後の試験」と呼ばれ、最も難しい推論ベンチマークの一つだ。GPT-5.4 Proがこの分野で圧倒的優位を示していることは、OpenAIの推論アーキテクチャ(o系モデルの延長線上)がこの種のタスクに強いことを示唆している。

エージェント性能:MCPとツール呼び出し

2026年のAIモデル競争の新たなフロンティアは「エージェント性能」だ。モデルがどれだけ自律的にタスクを実行できるかを測る指標をまとめる。

モデルMCP-MarkMCP-AtlasSpreadSheetBench
Qwen3.7-Max60.8%76.4%87.0%
Claude Opus 4.675.8%
GLM-5.157.5%
Kimi K2.6

Qwen3.7-MaxはMCP-Mark(60.8%)でGLM-5.1(57.5%)を、MCP-Atlas(76.4%)でOpus 4.6(75.8%)をそれぞれ上回った。SpreadSheetBench-v1の87.0%は、表計算タスクでの優位性を示している。

コンテキストウィンドウと出力制限

モデルコンテキスト最大出力
Qwen3.7-Max1,000,00064,000
Claude Opus 4.7200,000128,000
GPT-5.51,000,000
Gemini 3.0 Pro2,000,000

Qwen3.7-MaxとGPT-5.5は100万トークンのコンテキストを持つ。Claude Opus 4.7は20万トークンとフロンティアモデルの中で最小であり、大規模コードベースの処理には制約がある。

一方で、Opus 4.7は最大出力128,000トークンとなっており、長文生成に強い。

価格比較:フロンティアモデルのコスト構造

モデル入力/1M出力/1Mコンテキスト
Qwen3.7-Max$2.50$7.501M
Claude Opus 4.7$5.00$25.00200K
GPT-5.2$1.25$10.00256K
DeepSeek V4 Pro$1.74$3.481M
Gemini 3.1 Pro$2.50$15.001M

Qwen3.7-Maxの$2.50/$7.50は、Opus 4.7($5/$25)の3分の1以下だ。GPQA DiamondでOpus 4.6を上回りながら、価格は大幅に安い。

コストパフォーマンスで見ると以下のようになる。

モデルGPQA Diamond出力/1Mスコア/ドル
Qwen3.7-Max92.4%$7.5012.3
Claude Opus 4.691.3%$25.003.7
DeepSeek V4 Pro$3.48
GPT-5.2$10.00

Qwen3.7-MaxのコスパはOpus 4.6の3.3倍だ。

注意点:verbosity(冗長性)の問題

Artificial Analysisの評価によると、Qwen3.7-Maxは評価中に約9,700万トークンを生成した。中央値は2,400万トークンであり、これは4倍の冗長性を意味する。

長時間のエージェントセッションでは、この冗長性がコストに直結する。出力価格が$7.50/1Mトークンであっても、4倍の出力があれば実質的なコストは$30/1Mに近づき、Opus 4.7の$25/1Mとの差は縮まる。

まとめ:用途別モデル選択

用途最適モデル理由
コーディング(最高品質)Claude Opus 4.7SWE-bench 87.6%、圧倒的差
推論・科学(GPQA系)Qwen3.7-MaxGPQA 92.4%、コスパ最高
数学・競技プログラミングGPT-5.4 ProHLE 58.7%、FrontierMath最高
エージェント(長時間実行)Qwen3.7-Max35時間自律実行、MCP最強
大規模コードベースGemini 3.1 Pro2Mコンテキスト
予算制限ありDeepSeek V4 Pro$1.74/$3.48、80.6% SWE-bench

2026年5月のフロンティアモデル戦争で明らかなのは、「最強」は存在しないということだ。SWE-benchではClaude、推論ではQwen3.7、数学ではGPT-5.4、コストではDeepSeekというように、各モデルが異なる分野で優位性を持っている。

モデル選択は「どれが最強か」ではなく、「自分のユースケースにどれが最適か」で決めるべきだ。


各モデルの最新ベンチマークスコアとAPI料金の詳細は、AI Models Naviのベンチマーク比較ページで確認できる。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...