解説
Qwen3.7-Max発表:35時間の自律的カーネル最適化で推論性能が10倍に
概要
Qwen3.7-Maxは、エージェントシナリオに深度最適化されたアリババの最新旗艦モデルだ。プログラミング、推論、オフィス自動化、長時間タスク実行などにおいてトップレベルの性能を発揮し、GPT、Claude、Geminiなどの国際的なトップモデルに匹敵する総合能力を実現した。


主要ベンチマーク結果
プログラミングエージェント
| ベンチマーク | Qwen3.7-Max | DeepSeek-v4-Pro Max | Claude Opus 4.7 Max |
|---|---|---|---|
| TerminalBench 2.0-Terminus | 69.7 | 67.9 | 65.4 |
| SWE-Multilingual | 78.3 | - | - |
| SWE-Pro | 60.6 | - | - |
汎用エージェント
| ベンチマーク | Qwen3.7-Max | Claude Opus 4.6 | GLM 5.1 |
|---|---|---|---|
| MCP-Atlas | 76.4 | 75.8 | - |
| MCP-Mark | 60.8 | - | 57.5 |
| SpreadSheetBench-v1 | 87.0 | - | - |
推論能力
| ベンチマーク | Qwen3.7-Max | Claude Opus 4.6 |
|---|---|---|
| GPQA Diamond | 92.4 | 91.3 |
| HLE | 41.4 | 40.0 |
35時間の自律的カーネル最適化実験
Qwen3.7-Maxの最も注目すべき成果は、35時間に及ぶ完全自律的なハードウェア最適化タスクだ。
アリババは、Qwen3.7-Maxにトレーニング時に一度も見たことのないチップ(平頭哥真武M890)上で推論カーネルを最適化させた。人間の介入なしに、モデルは35時間連続で作業し、最終的にTriton演算子の性能を10倍に向上させた。
実験の詳細
- チップ: 平頭哥真武M890(トレーニングデータなし)
- 作業時間: 35時間連続
- ツール呼び出し回数: 1,158回
- カーネル評価回数: 432回
- 最終結果: 公式参照実装比10倍の性能向上
他モデルとの比較
| モデル | 幾何平均加速比 |
|---|---|
| Qwen3.7-Max | 10.0x |
| GLM 5.1 | 7.3x |
| Kimi K2.6 | 5.0x |
| DeepSeek V4 Pro | 3.3x(途中中断) |
Artificial Analysisランキング
第三者評価機関Artificial Analysisの最新ランキングによると:
- 総合スコア: 56.6ポイント
- 世界ランキング: 第5位
- 国産モデル: 第1位
- 前世代からの進歩: +4.8ポイント
上位にはGPT-5.4(xhigh)、Gemini 3.1 Pro Preview、Claude-Opus4.7(max)など少数のモデルがランクインしている。
リリースペース
Qwenシリーズは急速な迭代ペースを維持している。

| 日付 | モデル | テーマ |
|---|---|---|
| 2026年3月20日 | Qwen3.5-Max-Preview | 原生マルチモーダルエージェントへ |
| 2026年4月20日 | Qwen3.6-Max-Preview | 現実世界エージェントへ |
| 2026年5月20日 | Qwen3.7-Max | エージェント時代の新基準 |
毎月1世代の旗艦モデルをリリースし、そのたびに国産モデルの性能上限を更新している。
まとめ
Qwen3.7-Maxは、エージェント能力に特化した新一代旗艦モデルとして、プログラミング、推論、オフィス自動化の各分野でトップクラスの性能を実現した。特に35時間の自律的カーネル最適化実験は、AIモデルの長期自律作業能力を示す重要なマイルストーンだ。
読み込み中...