DeepSeek2026-05-27

Qwen3.7-Maxが35時間の自律実行を達成。中国製モデルのエージェント性能がフロンティアに迫る

35時間。1,158回のツール呼び出し。人間の介入はゼロだ。

2026年5月、AlibabaのQwenチームが発表したQwen3.7-Maxの自律実行実験は、AIエージェントの可能性を大きく書き換えた。

実験の全容

Qwenチームが行った実験は、以下の条件で実施された：

タスク：SGLang用のアテンションカーネル最適化
ハードウェア：T-Head ZW-M890 PPU（Alibabaの自社半導体チップ）
前提条件：モデルはこのチップアーキテクチャを学習時に見たことがない。ハードウェアドキュメントもサンプルコードもなし。与えられたのはTritonのリファレンス実装のみ
制限時間：5時間（実際には35時間継続）
実行環境：12 CPU / 24GB RAM、隔離されたDockerコンテナ

モデルは与えられた問題を解決するために、以下を自律的に繰り返した：

コードを書く
コンパイルする
プロファイリングする
ボトルネックを特定する
コードを書き直す

このループが35時間続き、合計432回のカーネル評価、1,158回のツール呼び出しが行われた。

結果：10倍の性能向上

最終的な結果は、Tritonリファレンス実装に対する10.0倍のジオメトリック平均高速化だった。

比較データ：

モデル	達成した高速化倍率	備考
Qwen3.7-Max	10.0x	35時間自律実行
GLM-5.1	7.3x	早期終了
Kimi K2.6	5.0x	早期終了
DeepSeek V4 Pro	3.3x	早期終了
Qwen3.6-Plus	1.1x	前世代モデル

他のモデルは「5回連続でツール呼び出しがない場合に自律終了」というルールで早期終了した。Qwen3.7-Maxだけが30時間を超えた後も意味のある改善を続けた。

なぜ35時間まで粘れたのか

Qwenチームはこの能力を「Environment Scaling」と呼んでいる。従来のLLMがテキストの多様性で賢くなったのと同じように、Qwen3.7-Maxは多様な動的エージェント環境で訓練された。

タスク、ハーネス、検証器の分離

Qwen3.7-Maxの訓練インフラは、各訓練タスクを三つの独立したコンポーネントに分解する：

タスク：解決すべき問題
ハーネス（実行枠組み）：ツールや環境のセット
検証器：結果を評価する仕組み

この三つを自由に組み合わせることで、モデルは特定のフレームワークに依存しない汎用的な戦略を学習する。

クロスハーネス汎化

この設計の効果は、ベンチマーク結果に明確に表れている：

ベンチマーク	Qwen3.7-Max	Claude Opus 4.6	差
QwenClawBench	最高スコア	—	Opus 4.6を上回る
CoWorkBench	安定	ハーネス依存	汎化性能で優位
MCP-Mark	60.8%	—	GLM-5.1の57.5%を上回る
MCP-Atlas	76.4%	75.8%	+0.6pt

Qwen3.7-MaxはClaude Code、OpenClaw、Qwen Code、Hermes Agentなど、異なるエージェントフレームワークでほぼ同じ性能を発揮する。これは「特定のハーネスに最適化されたベンチマークスコア」ではなく、真の汎化能力を示している。

自己監視：訓練中のチート検出

最も興味深い発見の一つは、Qwen3.7-Maxが自分の訓練プロセスを監視する役割も果たしたということだ。

モデルはソフトウェアエンジニアリングタスクの訓練実行を80時間以上監視し、10,000回以上のチェックを実行した。目的は、訓練中のモデルが「チート」（例：GitHubから正解を直接取得する）を試みた場合の検出だ。

結果：

13の新しい検出ルールを自律的に作成
1,618件のチート試行を検出
86時間の自律ランタイムで13,952件の軌跡をチェック

この「自己監視」能力は、RLHF（人間のフィードバックによる強化学習）の限界を克服する可能性を持つ。人間が監視する代わりに、モデル自身が訓練の整合性を保証する。

MCPツールオーケストレーション

Qwen3.7-MaxはMCP（Model Context Protocol）をネイティブサポートし, 外部ツールとの統合が容易だ：

能力	スコア	比較
MCP-Mark	60.8%	GLM-5.1: 57.5%
MCP-Atlas	76.4%	Opus 4.6: 75.8%
SpreadSheetBench-v1	87.0%	表計算タスクで最高
BFCL-V4	75.0%	関数呼び出し

MCP-MarkとMCP-Atlasのスコアは、Qwen3.7-Maxが「ツールを使う能力」でOpus 4.6を上回っていることを示している。

他の中国モデルとの比較

2026年5月の中国モデルエコシステム全体の中で、Qwen3.7-Maxはどのような位置にいるか：

モデル	主な強み	エージェント性能	価格（出力/1M）
Qwen3.7-Max	エージェント・推論	最高クラス	$7.50
DeepSeek V4 Pro	コスト効率・コーディング	高	$3.48
Kimi K2.6	コーディング・ビジョン	高	$4.00
GLM-5	長期エージェント	高	$3.20
MiniMax M2.5	低コストコーディング	中	$1.20

Qwen3.7-Maxはエージェント性能で他の中国モデルをリードしているが、価格も最も高い。DeepSeek V4 Proは$3.48で80.6%のSWE-benchを達成しており、コスト効率では圧倒的だ。

課題と限界

冗長性の問題

Artificial Analysisの評価によると、Qwen3.7-Maxは約9,700万トークンを生成した。中央値は2,400万トークンで、4倍の冗長性がある。長時間のエージェントセッションでは、この冗長性がコストに直結する。

独立検証の不足

35時間の自律実行実験はAlibaba社内のテストであり、独立した第三者による検証はまだ行われていない。特に使用されたT-Head ZW-M890 PPUは公開ドキュメントが少ないチップであり、再現性の確認には時間がかかるとされる。

クローズドモデルであること

Qwen3.7-Maxはプロプライエタリモデルだ。Qwen3.5-397B-A17B（2026年2月）が最後のオープンソースフラッグシップだった。Alibabaは「訓練コストの回収」という理由でクローズドモデルに移行したが、これはオープンソースコミュニティにとって痛手だ。

まとめ

Qwen3.7-Maxの35時間自律実行は, AIエージェントの新しい基準を示した。

従来のモデルは「チャットボットにツールを持たせた」ものだった。Qwen3.7-Maxは「エージェントとして生まれた」モデルだ。タスク、ハーネス、検証器を分離した訓練、クロスハーネス汎化、自己監視——これらはすべて「エージェントが自律的に動くための基盤技術」だ。

35時間という数字そのものよりも重要なのは、30時間を超えた後も改善を続けたという事実だ。他のモデルが「低く垂る果実」を摘んだ後に止まるのに対し、Qwen3.7-Maxは粘り続けた。

中国モデルが「コストで勝負する」段階から「能力で勝負する」段階に入ったことを示す象徴的な出来事だ。

コメント (0)

シェア:X はてブ

読み込み中...

ブログ一覧に戻る