ブログ一覧に戻る
Alibaba

Qwen3.7完全ガイド:Max・Plusの性能・料金・API利用法を徹底解説

Qwen3.7とは何か

2026年5月20日、アリババは阿里雲サミットで「Qwen3.7-Max」を正式発表した。エージェント時代の基盤モデルとして設計されたこのモデルは、単なる対話AIではなく、コードの記述・デバッグ、オフィスワークフローの自動化、数百から数千ステップに及ぶ長時間タスクの自律実行を目的としている。

Qwen3.7シリーズには2つのモデルが存在する。

モデル定位提供形態
Qwen3.7-Max旗舰版。最強のエージェント能力API提供(閉源)
Qwen3.7-Plus高性能版。バランス型API提供(閉源)

Qwen3.7-Maxはオープンソースではない。アリババは直近でQwen3.6-27B(Apache 2.0)やQwen3.6-35B-A3Bをオープンソースとしているが、3.7シリーズは現時点でAPI経由でのみ利用可能だ。


Arena AIランキングでの成績

Qwen3.7-Max-Previewは2026年5月19日にArena AI(旧LMArena)に登場し、即座に注目を集めた。

テキスト総合ランキング:第13位(GPT 5.5とGrok 4.2の間)、国产モデル第1位

視覚ランキング:Qwen3.7-Plus-Previewが第16位

Qwen3.7-Max Arena AIランキング

Qwen3.7-Max サブカテゴリランキング

第三者評価機関Artificial Analysisの最新ランキングでは、Qwen3.7-Maxは総合スコア56.6を記録。GPT、Claude、Geminiの最强モデルに迫るスコアで、国产モデル第1位、世界第5位にランクインした。


ベンチマーク詳細スコア

BenchLM総合評価

BenchLM.aiの評価によると、Qwen3.7-Maxは総合スコア92/100で全117モデル中第3位。Arena Eloは1475。

カテゴリスコアランキング
コーディング92.2#4
推論96.4
エージェント87.7
知識86.8#9
マルチリンガル88.2#10
指示追従93.6#7

Arena Elo内訳

カテゴリElo投票数
テキスト総合14753,741
コーディング15251,135
数学1499218
ハードプロンプト14962,546
マルチターン1484648

主要ベンチマーク:他モデルとの比較

プログラミングエージェント

ベンチマークQwen3.7-MaxClaude Opus 4.6DeepSeek V4 ProGPT-5.5
SWE-Pro60.6
SWE-Multilingual78.3
SWE-Verified80.480.880.6
Terminal-Bench 2.069.767.9
SciCode53.5
NL2Repo

SWE-VerifiedではClaude Opus 4.6 Max(80.8)やDeepSeek V4 Pro Max(80.6)とほぼ同スコア。Terminal-Bench 2.0ではDeepSeek V4 Pro Max(67.9)を上回った。

汎用エージェント

ベンチマークQwen3.7-MaxClaude Opus 4.6GLM 5.1Kimi K2.6
MCP-Mark60.857.5
MCP-Atlas76.475.8
SkillsBench59.256.2
BFCL-V475.0
SpreadSheetBench-v187.0
Kernel Bench L31.98x / 96%

MCP-AtlasではClaude Opus 4.6(75.8)を僅差で上回り、SkillsBenchではKimi K2.6(56.2)を凌駕した。

推論能力

ベンチマークQwen3.7-MaxClaude Opus 4.6DeepSeek V4 Pro
GPQA Diamond92.491.3
HLE41.440.0
HMMT 2026 Feb97.196.2
IMOAnswerBench90.089.8
Apex44.538.3

推論ベンチマークではClaude Opus 4.6を一貫して上回る結果を示している。GPQA Diamond 92.4は、公開されているスコアの中ではトップクラスだ。

一般能力・マルチリンガル

ベンチマークQwen3.7-MaxDeepSeek V4 Pro
IFBench79.177.0
WMT24++85.8
MAXIFE89.2
SuperGPQA73.6

35時間の自律実験:最も重要な成果

ベンチマークスコア以上に注目すべきは、Qwen3.7-Maxが35時間に及ぶ完全自律的なタスクを成功させたという事実だ。

実験内容

アリババはQwen3.7-Maxに、トレーニング時に一度も见过ことのないチップ(平頭哥真武M890)上で推論カーネルを最適化させた。モデルにはハードウェアのドキュメントもプロファイリングデータも与えられなかった。タスクの説明、既存のSGLang実装、評価スクリプトだけが渡された。

結果

  • 作業時間: 35時間連続(人間の介入なし)
  • ツール呼び出し: 1,158回
  • カーネル評価: 432回
  • 最終結果: Triton参照実装比10.0倍の幾何平均加速

モデルは35時間の間、一貫した推論戦略を維持し続けた。30時間経過後も有意な改善を発見し続けており、長時間の自律的最適化が「実現可能」であるだけでなく「生産的」であることを示した。

他モデルとの比較

モデル幾何平均加速比備考
Qwen3.7-Max10.0x35時間完走
GLM 5.17.3x
Kimi K2.65.0x
DeepSeek V4 Pro3.3x途中中断
Qwen3.6-Plus1.1x途中中断

途中中断したモデルは「5ラウンド連続でツール呼び出しがなかった」場合に自動終了している。つまり、モデル自身が「これ以上改善できない」と判断して作業を停止したのだ。

KernelBench L3での結果

同じくカーネル生成能力を測るKernelBench L3では、Qwen3.7-Maxは96%のシナリオで加速カーネルを生成。比較対象は以下の通り。

モデル加速カーネル生成率
Claude Opus 4.698%
Qwen3.7-Max96%
GLM 5.178%
Kimi K2.680%
DeepSeek V4 Pro54%

YC-Bench:スタートアップ経営シミュレーション

Qwen3.7-Maxの另一个注目すべき成果は、YC-Benchでの成績だ。このベンチマークはスタートアップの1年間のライフサイクル全体をシミュレーションし、人員管理、契約審査、悪意あるクライアントの識別など、数百回の意思決定を要求する。

モデル総収益完了タスク数
Qwen3.7-Max2.08M USD237
Qwen3.6-Plus1.05M USD
Qwen3.5-Plus352K USD

Qwen3.7-Maxは前世代の約2倍、3.5世代の約6倍の収益を達成した。


API料金

Qwen3.7-MaxはアリババクラウドのModel Studio経由で提供される。

項目料金
入力トークン$2.50 / 1Mトークン
出力トークン$7.50 / 1Mトークン
コンテキストウィンドウ1Mトークン

比較的安価な料金設定だ。Claude Opus 4.6の入力$15/出力$75と比べると、入力は約1/6、出力は約1/10の価格となっている。


API利用方法

OpenAI互換API

Qwen3.7-MaxはOpenAI互換のAPIプロトコルをサポートしている。

from openai import OpenAI

client = OpenAI(
    api_key="your-dashscope-api-key",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)

completion = client.chat.completions.create(
    model="qwen3.7-max",
    messages=[{"role": "user", "content": "Pythonでソート済み連結リストをマージする関数を書いて"}],
    extra_body={"enable_thinking": True},
    stream=True
)

Claude Codeとの統合

Qwen APIはAnthropic APIプロトコルもサポートしており、Claude Codeに直接接続できる。

export ANTHROPIC_MODEL="qwen3.7-max"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.7-max"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>

claude

OpenClawとの統合

curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=<your_api_key>
openclaw dashboard

Qwen Code

npm install -g @qwen-code/qwen-code@latest
qwen

preserve_thinking機能

Qwen3.7-Maxはpreserve_thinking機能をサポートしている。これはエージェントタスクに推奨される機能で、メッセージ内の先行ターン全ての思考内容を保持する。長時間のマルチターン対話において、モデルの推論の一貫性を維持するのに役立つ。


Qwenシリーズの迭代ペース

Qwen3.7-Maxは、3ヶ月連続での旗舰モデルリリースという異例のペースの中で登場した。

Qwen3.7-Max リリースタイムライン

日付モデルテーマ
2026年2月Qwen3.5-Max原生マルチモーダルエージェント
2026年3月30日Qwen3.5-Omni全モーダル対応
2026年4月2日Qwen3.6-Plusエージェントプログラミング強化
2026年4月16日Qwen3.6-35B-A3BMoEオープンソース
2026年4月22日Qwen3.6-27B稠密モデルオープンソース
2026年5月20日Qwen3.7-Maxエージェント時代の新基準

毎月1世代の旗舰モデルをリリースし、そのたびに国产モデルの性能上限を更新している。この反復速度は、業界でも類を見ないペースだ。


他のQwen3.7クエリについて

Qwen3.7-Plus

Qwen3.7-PlusはMaxの弟分的存在で、視覚能力に強みを持つ。Arena AIの視覚ランキングで第16位を記録している。Maxと同様に思考モードをサポートするが、コストパフォーマンスに優れた選択肢となる。

Qwen3.7-Preview

Qwen3.7-Max-PreviewとQwen3.7-Plus-Previewは、正式リリース前のプレビュー版として2026年5月19日にArena AIに登場した。現時点では思考モードのみ対応で、検索機能やコードインタープリターはまだ開放されていない。

Qwen3.7-Max vs Qwen3.6-Plus

Qwen3.6-Plusは2026年4月2日にリリースされたモデルで、Qwen3.7-Maxの直接的な前任者にあたる。3.7-Maxは3.6-Plusと比較して、エージェント能力、推論精度、長時間タスク実行の安定性で大幅な改善を実現している。YC-Benchの収益比較(2.08M vs 1.05M)がその差を端的に示している。


まとめ

Qwen3.7-Maxは、エージェント能力に特化したアリババの最新旗舰モデルだ。主要ベンチマークでClaude Opus 4.6やDeepSeek V4 Proに匹敵または上回る性能を示し、35時間の自律実験では10倍の性能向上を達成した。

ポイントを整理すると:

  1. Arena総合国产第1位、世界第5位
  2. 推論能力: GPQA Diamond 92.4でClaude Opus 4.6(91.3)を上回る
  3. コーディング: SWE-Pro 60.6、Terminal-Bench 69.7
  4. 35時間自律実験: 1,158回のツール呼び出しで10倍加速
  5. 料金: 入力$2.50/出力$7.50 per 1Mトークン(Claude比で約1/10)
  6. コンテキスト: 1Mトークン
  7. 統合: Claude Code、OpenClaw、Qwen Codeに対応

エージェント時代の基盤モデルとして、Qwen3.7-Maxは「賢い」だけでなく「長時間働き続けられる」という点で新しい基準を打ち出している。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...