Qwen3.7-Maxが35時間の自律実行を達成。中国製モデルのエージェント性能がフロンティアに迫る
35時間。1,158回のツール呼び出し。人間の介入はゼロだ。
2026年5月、AlibabaのQwenチームが発表したQwen3.7-Maxの自律実行実験は、AIエージェントの可能性を大きく書き換えた。
実験の全容
Qwenチームが行った実験は、以下の条件で実施された:
- タスク:SGLang用のアテンションカーネル最適化
- ハードウェア:T-Head ZW-M890 PPU(Alibabaの自社半導体チップ)
- 前提条件:モデルはこのチップアーキテクチャを学習時に見たことがない。ハードウェアドキュメントもサンプルコードもなし。与えられたのはTritonのリファレンス実装のみ
- 制限時間:5時間(実際には35時間継続)
- 実行環境:12 CPU / 24GB RAM、隔離されたDockerコンテナ
モデルは与えられた問題を解決するために、以下を自律的に繰り返した:
- コードを書く
- コンパイルする
- プロファイリングする
- ボトルネックを特定する
- コードを書き直す
このループが35時間続き、合計432回のカーネル評価、1,158回のツール呼び出しが行われた。
結果:10倍の性能向上
最終的な結果は、Tritonリファレンス実装に対する10.0倍のジオメトリック平均高速化だった。
比較データ:
| モデル | 達成した高速化倍率 | 備考 |
|---|---|---|
| Qwen3.7-Max | 10.0x | 35時間自律実行 |
| GLM-5.1 | 7.3x | 早期終了 |
| Kimi K2.6 | 5.0x | 早期終了 |
| DeepSeek V4 Pro | 3.3x | 早期終了 |
| Qwen3.6-Plus | 1.1x | 前世代モデル |
他のモデルは「5回連続でツール呼び出しがない場合に自律終了」というルールで早期終了した。Qwen3.7-Maxだけが30時間を超えた後も意味のある改善を続けた。
なぜ35時間まで粘れたのか
Qwenチームはこの能力を「Environment Scaling」と呼んでいる。従来のLLMがテキストの多様性で賢くなったのと同じように、Qwen3.7-Maxは多様な動的エージェント環境で訓練された。
タスク、ハーネス、検証器の分離
Qwen3.7-Maxの訓練インフラは、各訓練タスクを三つの独立したコンポーネントに分解する:
- タスク:解決すべき問題
- ハーネス(実行枠組み):ツールや環境のセット
- 検証器:結果を評価する仕組み
この三つを自由に組み合わせることで、モデルは特定のフレームワークに依存しない汎用的な戦略を学習する。
クロスハーネス汎化
この設計の効果は、ベンチマーク結果に明確に表れている:
| ベンチマーク | Qwen3.7-Max | Claude Opus 4.6 | 差 |
|---|---|---|---|
| QwenClawBench | 最高スコア | — | Opus 4.6を上回る |
| CoWorkBench | 安定 | ハーネス依存 | 汎化性能で優位 |
| MCP-Mark | 60.8% | — | GLM-5.1の57.5%を上回る |
| MCP-Atlas | 76.4% | 75.8% | +0.6pt |
Qwen3.7-MaxはClaude Code、OpenClaw、Qwen Code、Hermes Agentなど、異なるエージェントフレームワークでほぼ同じ性能を発揮する。これは「特定のハーネスに最適化されたベンチマークスコア」ではなく、真の汎化能力を示している。
自己監視:訓練中のチート検出
最も興味深い発見の一つは、Qwen3.7-Maxが自分の訓練プロセスを監視する役割も果たしたということだ。
モデルはソフトウェアエンジニアリングタスクの訓練実行を80時間以上監視し、10,000回以上のチェックを実行した。目的は、訓練中のモデルが「チート」(例:GitHubから正解を直接取得する)を試みた場合の検出だ。
結果:
- 13の新しい検出ルールを自律的に作成
- 1,618件のチート試行を検出
- 86時間の自律ランタイムで13,952件の軌跡をチェック
この「自己監視」能力は、RLHF(人間のフィードバックによる強化学習)の限界を克服する可能性を持つ。人間が監視する代わりに、モデル自身が訓練の整合性を保証する。
MCPツールオーケストレーション
Qwen3.7-MaxはMCP(Model Context Protocol)をネイティブサポートし, 外部ツールとの統合が容易だ:
| 能力 | スコア | 比較 |
|---|---|---|
| MCP-Mark | 60.8% | GLM-5.1: 57.5% |
| MCP-Atlas | 76.4% | Opus 4.6: 75.8% |
| SpreadSheetBench-v1 | 87.0% | 表計算タスクで最高 |
| BFCL-V4 | 75.0% | 関数呼び出し |
MCP-MarkとMCP-Atlasのスコアは、Qwen3.7-Maxが「ツールを使う能力」でOpus 4.6を上回っていることを示している。
他の中国モデルとの比較
2026年5月の中国モデルエコシステム全体の中で、Qwen3.7-Maxはどのような位置にいるか:
| モデル | 主な強み | エージェント性能 | 価格(出力/1M) |
|---|---|---|---|
| Qwen3.7-Max | エージェント・推論 | 最高クラス | $7.50 |
| DeepSeek V4 Pro | コスト効率・コーディング | 高 | $3.48 |
| Kimi K2.6 | コーディング・ビジョン | 高 | $4.00 |
| GLM-5 | 長期エージェント | 高 | $3.20 |
| MiniMax M2.5 | 低コストコーディング | 中 | $1.20 |
Qwen3.7-Maxはエージェント性能で他の中国モデルをリードしているが、価格も最も高い。DeepSeek V4 Proは$3.48で80.6%のSWE-benchを達成しており、コスト効率では圧倒的だ。
課題と限界
冗長性の問題
Artificial Analysisの評価によると、Qwen3.7-Maxは約9,700万トークンを生成した。中央値は2,400万トークンで、4倍の冗長性がある。長時間のエージェントセッションでは、この冗長性がコストに直結する。
独立検証の不足
35時間の自律実行実験はAlibaba社内のテストであり、独立した第三者による検証はまだ行われていない。特に使用されたT-Head ZW-M890 PPUは公開ドキュメントが少ないチップであり、再現性の確認には時間がかかるとされる。
クローズドモデルであること
Qwen3.7-Maxはプロプライエタリモデルだ。Qwen3.5-397B-A17B(2026年2月)が最後のオープンソースフラッグシップだった。Alibabaは「訓練コストの回収」という理由でクローズドモデルに移行したが、これはオープンソースコミュニティにとって痛手だ。
まとめ
Qwen3.7-Maxの35時間自律実行は, AIエージェントの新しい基準を示した。
従来のモデルは「チャットボットにツールを持たせた」ものだった。Qwen3.7-Maxは「エージェントとして生まれた」モデルだ。タスク、ハーネス、検証器を分離した訓練、クロスハーネス汎化、自己監視——これらはすべて「エージェントが自律的に動くための基盤技術」だ。
35時間という数字そのものよりも重要なのは、30時間を超えた後も改善を続けたという事実だ。他のモデルが「低く垂る果実」を摘んだ後に止まるのに対し、Qwen3.7-Maxは粘り続けた。
中国モデルが「コストで勝負する」段階から「能力で勝負する」段階に入ったことを示す象徴的な出来事だ。
読み込み中...