ブログ一覧に戻る
オープンソース

Qwen3.7-Plusが登場:画像理解能力を備えたマルチモーダルAIの最前線

「AIに画像を見せたい」——この一見シンプルな要望が、2026年のAI開発における最も重要なトレンドの一つになっている。

AlibabaのQwen3.7-Maxはテキスト推論で中国モデル最高の性能を記録したが、一つの壁があった。画像が認識できないことだ。スクリーンショットを渡しても理解できず、図表の読み取りもできなかった。

2026年5月、その壁が崩れた。Qwen3.7-Plusがプレビュー公開され、Qwen3.7シリーズにマルチモーダル能力が加わった。

Qwen3.7-Plusとは何か

Qwen3.7-Plusは、Qwen3.7-Maxと同じアーキテクチャ基盤にビジョンエンコーダーを統合したマルチモーダルモデルだ。

項目Qwen3.7-Plus
モダリティテキスト + 画像
コンテキスト1,000,000トークン
最大出力65,536トークン
LM Arena Vision16位
API状態プレビュー(無料テスト可)

テキスト性能はMaxにやや劣るが、画像理解能力により、Maxでは不可能だったタスクが可能になる。

マルチモーダルが開くユースケース

1. スクリーンショット解析

開発者の日常的なワークフローを考えてみよう。バグ報告に添付されたスクリーンショットをAIに見せ、「どこがおかしいか特定して」と頼む——これがQwen3.7-Plusで可能になる。

テキストのみのモデルでは、エラーメッセージをテキストで渡す必要があった。しかし、実際のバグは画面レイアウトの崩れや、意図しないUI状態として現れることが多い。画像理解があれば、これらの問題も直接AIに伝えられる。

2. ドキュメント・図表の読み取り

PDFレポート、技術仕様書、アーキテクチャ図——これらの多くはテキストだけでなく、図表やチャートで情報を伝える。100万トークンのコンテキストウィンドウを持つPlusは、大量のドキュメントを画像付きで処理できる。

例えば、複数ページの技術仕様書を画像として渡し、「このAPIのレート制限は?」と質問すれば、図表内の情報も含めて回答できる。

3. UIエージェントフロー

2026年のAIエージェント開発で最も注目されている分野の一つが、画面を見ながら操作するAIだ。

Webアプリケーションのスクリーンショットを入力として受け取り、次にクリックすべきボタンや入力すべきフィールドを判断する——このようなUIエージェントには、画像理解が不可欠だ。

Qwen3.7-Plusは、この種のタスクに対してVision LM Arenaで16位の性能を示しており、中国モデルとしては上位に位置する。

他のマルチモーダルモデルとの比較

マルチモーダルAI市場は激戦区だ。Qwen3.7-Plusの位置づけを確認する:

モデルメーカー画像理解テキスト推論価格(出力/1M)
GPT-5.5OpenAI
Gemini 3.1 ProGoogle$15.00
Claude Opus 4.7Anthropic$25.00
Qwen3.7-PlusAlibaba未定
Qwen3.7-MaxAlibaba$7.50

GPT-5.5やGemini 3.1 Proはテキストと画像の両方で高い性能を持つ。Claude Opus 4.7はテキスト推論で最高だが、画像理解は限定的だ。

Qwen3.7-Plusの強みは、100万トークンのコンテキスト中国モデル特有のコスト競争力にある。正式価格がMax程度($2.50/$7.50)であれば、Gemini 3.1 Pro($15.00)の半分以下で同等のマルチモーダル能力を提供できる。

プレビュー段階の注意点

Qwen3.7-Plusは現在プレビュー段階であり、いくつかの制約がある:

  • API価格未定 — 正式な料金体系は発表されていない
  • ベンチマーク限定 — Plus単独の詳細ベンチマークはまだ少ない
  • 組み込みツール未対応 — MaxにあるWeb検索やコードインタープリターは未対応
  • オープンウェイト未公開 — HuggingFace等での重み配布はない

正式リリース時には、これらの制約の一部が解消される可能性がある。

今後の展望

Qwen3.7-Plusの登場は、Alibabaの戦略が「テキスト最強」から「マルチモーダル対応」に移行していることを示している。

Maxが築いたテキスト推論の強さ(GPQA Diamond 92.4%、SWE-bench Pro 60.6%)を基盤に、Plusが画像理解を加えることで、Qwen3.7シリーズはより幅広いユースケースをカバーできるようになった。

2026年後半には、Qwen3.7-Plusの正式リリースと、より詳細なベンチマークデータの公開が予想される。その時、「テキスト最強のMax」と「マルチモーダルのPlus」の使い分けが、AI開発の標準的なパターンになるかもしれない。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...