Qwen3.7-Plusが登場:画像理解能力を備えたマルチモーダルAIの最前線
「AIに画像を見せたい」——この一見シンプルな要望が、2026年のAI開発における最も重要なトレンドの一つになっている。
AlibabaのQwen3.7-Maxはテキスト推論で中国モデル最高の性能を記録したが、一つの壁があった。画像が認識できないことだ。スクリーンショットを渡しても理解できず、図表の読み取りもできなかった。
2026年5月、その壁が崩れた。Qwen3.7-Plusがプレビュー公開され、Qwen3.7シリーズにマルチモーダル能力が加わった。
Qwen3.7-Plusとは何か
Qwen3.7-Plusは、Qwen3.7-Maxと同じアーキテクチャ基盤にビジョンエンコーダーを統合したマルチモーダルモデルだ。
| 項目 | Qwen3.7-Plus |
|---|---|
| モダリティ | テキスト + 画像 |
| コンテキスト | 1,000,000トークン |
| 最大出力 | 65,536トークン |
| LM Arena Vision | 16位 |
| API状態 | プレビュー(無料テスト可) |
テキスト性能はMaxにやや劣るが、画像理解能力により、Maxでは不可能だったタスクが可能になる。
マルチモーダルが開くユースケース
1. スクリーンショット解析
開発者の日常的なワークフローを考えてみよう。バグ報告に添付されたスクリーンショットをAIに見せ、「どこがおかしいか特定して」と頼む——これがQwen3.7-Plusで可能になる。
テキストのみのモデルでは、エラーメッセージをテキストで渡す必要があった。しかし、実際のバグは画面レイアウトの崩れや、意図しないUI状態として現れることが多い。画像理解があれば、これらの問題も直接AIに伝えられる。
2. ドキュメント・図表の読み取り
PDFレポート、技術仕様書、アーキテクチャ図——これらの多くはテキストだけでなく、図表やチャートで情報を伝える。100万トークンのコンテキストウィンドウを持つPlusは、大量のドキュメントを画像付きで処理できる。
例えば、複数ページの技術仕様書を画像として渡し、「このAPIのレート制限は?」と質問すれば、図表内の情報も含めて回答できる。
3. UIエージェントフロー
2026年のAIエージェント開発で最も注目されている分野の一つが、画面を見ながら操作するAIだ。
Webアプリケーションのスクリーンショットを入力として受け取り、次にクリックすべきボタンや入力すべきフィールドを判断する——このようなUIエージェントには、画像理解が不可欠だ。
Qwen3.7-Plusは、この種のタスクに対してVision LM Arenaで16位の性能を示しており、中国モデルとしては上位に位置する。
他のマルチモーダルモデルとの比較
マルチモーダルAI市場は激戦区だ。Qwen3.7-Plusの位置づけを確認する:
| モデル | メーカー | 画像理解 | テキスト推論 | 価格(出力/1M) |
|---|---|---|---|---|
| GPT-5.5 | OpenAI | ◎ | ◎ | — |
| Gemini 3.1 Pro | ◎ | ◎ | $15.00 | |
| Claude Opus 4.7 | Anthropic | ○ | ◎ | $25.00 |
| Qwen3.7-Plus | Alibaba | ◎ | ○ | 未定 |
| Qwen3.7-Max | Alibaba | ✕ | ◎ | $7.50 |
GPT-5.5やGemini 3.1 Proはテキストと画像の両方で高い性能を持つ。Claude Opus 4.7はテキスト推論で最高だが、画像理解は限定的だ。
Qwen3.7-Plusの強みは、100万トークンのコンテキストと中国モデル特有のコスト競争力にある。正式価格がMax程度($2.50/$7.50)であれば、Gemini 3.1 Pro($15.00)の半分以下で同等のマルチモーダル能力を提供できる。
プレビュー段階の注意点
Qwen3.7-Plusは現在プレビュー段階であり、いくつかの制約がある:
- API価格未定 — 正式な料金体系は発表されていない
- ベンチマーク限定 — Plus単独の詳細ベンチマークはまだ少ない
- 組み込みツール未対応 — MaxにあるWeb検索やコードインタープリターは未対応
- オープンウェイト未公開 — HuggingFace等での重み配布はない
正式リリース時には、これらの制約の一部が解消される可能性がある。
今後の展望
Qwen3.7-Plusの登場は、Alibabaの戦略が「テキスト最強」から「マルチモーダル対応」に移行していることを示している。
Maxが築いたテキスト推論の強さ(GPQA Diamond 92.4%、SWE-bench Pro 60.6%)を基盤に、Plusが画像理解を加えることで、Qwen3.7シリーズはより幅広いユースケースをカバーできるようになった。
2026年後半には、Qwen3.7-Plusの正式リリースと、より詳細なベンチマークデータの公開が予想される。その時、「テキスト最強のMax」と「マルチモーダルのPlus」の使い分けが、AI開発の標準的なパターンになるかもしれない。
読み込み中...