ブログ一覧に戻る
解説

Qwen3.7-Max発表:35時間の自律的カーネル最適化で推論性能が10倍に

概要

Qwen3.7-Maxは、エージェントシナリオに深度最適化されたアリババの最新旗艦モデルだ。プログラミング、推論、オフィス自動化、長時間タスク実行などにおいてトップレベルの性能を発揮し、GPT、Claude、Geminiなどの国際的なトップモデルに匹敵する総合能力を実現した。

Qwen3.7-Max Arena AIランキング

Qwen3.7-Max サブカテゴリランキング


主要ベンチマーク結果

プログラミングエージェント

ベンチマークQwen3.7-MaxDeepSeek-v4-Pro MaxClaude Opus 4.7 Max
TerminalBench 2.0-Terminus69.767.965.4
SWE-Multilingual78.3--
SWE-Pro60.6--

汎用エージェント

ベンチマークQwen3.7-MaxClaude Opus 4.6GLM 5.1
MCP-Atlas76.475.8-
MCP-Mark60.8-57.5
SpreadSheetBench-v187.0--

推論能力

ベンチマークQwen3.7-MaxClaude Opus 4.6
GPQA Diamond92.491.3
HLE41.440.0

35時間の自律的カーネル最適化実験

Qwen3.7-Maxの最も注目すべき成果は、35時間に及ぶ完全自律的なハードウェア最適化タスクだ。

アリババは、Qwen3.7-Maxにトレーニング時に一度も見たことのないチップ(平頭哥真武M890)上で推論カーネルを最適化させた。人間の介入なしに、モデルは35時間連続で作業し、最終的にTriton演算子の性能を10倍に向上させた。

実験の詳細

  • チップ: 平頭哥真武M890(トレーニングデータなし)
  • 作業時間: 35時間連続
  • ツール呼び出し回数: 1,158回
  • カーネル評価回数: 432回
  • 最終結果: 公式参照実装比10倍の性能向上

他モデルとの比較

モデル幾何平均加速比
Qwen3.7-Max10.0x
GLM 5.17.3x
Kimi K2.65.0x
DeepSeek V4 Pro3.3x(途中中断)

Artificial Analysisランキング

第三者評価機関Artificial Analysisの最新ランキングによると:

  • 総合スコア: 56.6ポイント
  • 世界ランキング: 第5位
  • 国産モデル: 第1位
  • 前世代からの進歩: +4.8ポイント

上位にはGPT-5.4(xhigh)、Gemini 3.1 Pro Preview、Claude-Opus4.7(max)など少数のモデルがランクインしている。


リリースペース

Qwenシリーズは急速な迭代ペースを維持している。

Qwen3.7-Max リリースタイムライン

日付モデルテーマ
2026年3月20日Qwen3.5-Max-Preview原生マルチモーダルエージェントへ
2026年4月20日Qwen3.6-Max-Preview現実世界エージェントへ
2026年5月20日Qwen3.7-Maxエージェント時代の新基準

毎月1世代の旗艦モデルをリリースし、そのたびに国産モデルの性能上限を更新している。


まとめ

Qwen3.7-Maxは、エージェント能力に特化した新一代旗艦モデルとして、プログラミング、推論、オフィス自動化の各分野でトップクラスの性能を実現した。特に35時間の自律的カーネル最適化実験は、AIモデルの長期自律作業能力を示す重要なマイルストーンだ。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...