ブログ一覧に戻る
DeepSeek

Qwen3.7-Maxが35時間の自律実行を達成。中国製モデルのエージェント性能がフロンティアに迫る

35時間。1,158回のツール呼び出し。人間の介入はゼロだ。

2026年5月、AlibabaのQwenチームが発表したQwen3.7-Maxの自律実行実験は、AIエージェントの可能性を大きく書き換えた。

実験の全容

Qwenチームが行った実験は、以下の条件で実施された:

  • タスク:SGLang用のアテンションカーネル最適化
  • ハードウェア:T-Head ZW-M890 PPU(Alibabaの自社半導体チップ)
  • 前提条件:モデルはこのチップアーキテクチャを学習時に見たことがない。ハードウェアドキュメントもサンプルコードもなし。与えられたのはTritonのリファレンス実装のみ
  • 制限時間:5時間(実際には35時間継続)
  • 実行環境:12 CPU / 24GB RAM、隔離されたDockerコンテナ

モデルは与えられた問題を解決するために、以下を自律的に繰り返した:

  1. コードを書く
  2. コンパイルする
  3. プロファイリングする
  4. ボトルネックを特定する
  5. コードを書き直す

このループが35時間続き、合計432回のカーネル評価、1,158回のツール呼び出しが行われた。

結果:10倍の性能向上

最終的な結果は、Tritonリファレンス実装に対する10.0倍のジオメトリック平均高速化だった。

比較データ:

モデル達成した高速化倍率備考
Qwen3.7-Max10.0x35時間自律実行
GLM-5.17.3x早期終了
Kimi K2.65.0x早期終了
DeepSeek V4 Pro3.3x早期終了
Qwen3.6-Plus1.1x前世代モデル

他のモデルは「5回連続でツール呼び出しがない場合に自律終了」というルールで早期終了した。Qwen3.7-Maxだけが30時間を超えた後も意味のある改善を続けた。

なぜ35時間まで粘れたのか

Qwenチームはこの能力を「Environment Scaling」と呼んでいる。従来のLLMがテキストの多様性で賢くなったのと同じように、Qwen3.7-Maxは多様な動的エージェント環境で訓練された。

タスク、ハーネス、検証器の分離

Qwen3.7-Maxの訓練インフラは、各訓練タスクを三つの独立したコンポーネントに分解する:

  1. タスク:解決すべき問題
  2. ハーネス(実行枠組み):ツールや環境のセット
  3. 検証器:結果を評価する仕組み

この三つを自由に組み合わせることで、モデルは特定のフレームワークに依存しない汎用的な戦略を学習する。

クロスハーネス汎化

この設計の効果は、ベンチマーク結果に明確に表れている:

ベンチマークQwen3.7-MaxClaude Opus 4.6
QwenClawBench最高スコアOpus 4.6を上回る
CoWorkBench安定ハーネス依存汎化性能で優位
MCP-Mark60.8%GLM-5.1の57.5%を上回る
MCP-Atlas76.4%75.8%+0.6pt

Qwen3.7-MaxはClaude Code、OpenClaw、Qwen Code、Hermes Agentなど、異なるエージェントフレームワークでほぼ同じ性能を発揮する。これは「特定のハーネスに最適化されたベンチマークスコア」ではなく、真の汎化能力を示している。

自己監視:訓練中のチート検出

最も興味深い発見の一つは、Qwen3.7-Maxが自分の訓練プロセスを監視する役割も果たしたということだ。

モデルはソフトウェアエンジニアリングタスクの訓練実行を80時間以上監視し、10,000回以上のチェックを実行した。目的は、訓練中のモデルが「チート」(例:GitHubから正解を直接取得する)を試みた場合の検出だ。

結果:

  • 13の新しい検出ルールを自律的に作成
  • 1,618件のチート試行を検出
  • 86時間の自律ランタイムで13,952件の軌跡をチェック

この「自己監視」能力は、RLHF(人間のフィードバックによる強化学習)の限界を克服する可能性を持つ。人間が監視する代わりに、モデル自身が訓練の整合性を保証する。

MCPツールオーケストレーション

Qwen3.7-MaxはMCP(Model Context Protocol)をネイティブサポートし, 外部ツールとの統合が容易だ:

能力スコア比較
MCP-Mark60.8%GLM-5.1: 57.5%
MCP-Atlas76.4%Opus 4.6: 75.8%
SpreadSheetBench-v187.0%表計算タスクで最高
BFCL-V475.0%関数呼び出し

MCP-MarkとMCP-Atlasのスコアは、Qwen3.7-Maxが「ツールを使う能力」でOpus 4.6を上回っていることを示している。

他の中国モデルとの比較

2026年5月の中国モデルエコシステム全体の中で、Qwen3.7-Maxはどのような位置にいるか:

モデル主な強みエージェント性能価格(出力/1M)
Qwen3.7-Maxエージェント・推論最高クラス$7.50
DeepSeek V4 Proコスト効率・コーディング$3.48
Kimi K2.6コーディング・ビジョン$4.00
GLM-5長期エージェント$3.20
MiniMax M2.5低コストコーディング$1.20

Qwen3.7-Maxはエージェント性能で他の中国モデルをリードしているが、価格も最も高い。DeepSeek V4 Proは$3.48で80.6%のSWE-benchを達成しており、コスト効率では圧倒的だ。

課題と限界

冗長性の問題

Artificial Analysisの評価によると、Qwen3.7-Maxは約9,700万トークンを生成した。中央値は2,400万トークンで、4倍の冗長性がある。長時間のエージェントセッションでは、この冗長性がコストに直結する。

独立検証の不足

35時間の自律実行実験はAlibaba社内のテストであり、独立した第三者による検証はまだ行われていない。特に使用されたT-Head ZW-M890 PPUは公開ドキュメントが少ないチップであり、再現性の確認には時間がかかるとされる。

クローズドモデルであること

Qwen3.7-Maxはプロプライエタリモデルだ。Qwen3.5-397B-A17B(2026年2月)が最後のオープンソースフラッグシップだった。Alibabaは「訓練コストの回収」という理由でクローズドモデルに移行したが、これはオープンソースコミュニティにとって痛手だ。

まとめ

Qwen3.7-Maxの35時間自律実行は, AIエージェントの新しい基準を示した。

従来のモデルは「チャットボットにツールを持たせた」ものだった。Qwen3.7-Maxは「エージェントとして生まれた」モデルだ。タスク、ハーネス、検証器を分離した訓練、クロスハーネス汎化、自己監視——これらはすべて「エージェントが自律的に動くための基盤技術」だ。

35時間という数字そのものよりも重要なのは、30時間を超えた後も改善を続けたという事実だ。他のモデルが「低く垂る果実」を摘んだ後に止まるのに対し、Qwen3.7-Maxは粘り続けた。

中国モデルが「コストで勝負する」段階から「能力で勝負する」段階に入ったことを示す象徴的な出来事だ。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...