オープンソース2026-05-28

Qwen3.7-Plusが登場：画像理解能力を備えたマルチモーダルAIの最前線

「AIに画像を見せたい」——この一見シンプルな要望が、2026年のAI開発における最も重要なトレンドの一つになっている。

AlibabaのQwen3.7-Maxはテキスト推論で中国モデル最高の性能を記録したが、一つの壁があった。画像が認識できないことだ。スクリーンショットを渡しても理解できず、図表の読み取りもできなかった。

2026年5月、その壁が崩れた。Qwen3.7-Plusがプレビュー公開され、Qwen3.7シリーズにマルチモーダル能力が加わった。

Qwen3.7-Plusとは何か

Qwen3.7-Plusは、Qwen3.7-Maxと同じアーキテクチャ基盤にビジョンエンコーダーを統合したマルチモーダルモデルだ。

テキスト性能はMaxにやや劣るが、画像理解能力により、Maxでは不可能だったタスクが可能になる。

開発者の日常的なワークフローを考えてみよう。バグ報告に添付されたスクリーンショットをAIに見せ、「どこがおかしいか特定して」と頼む——これがQwen3.7-Plusで可能になる。

テキストのみのモデルでは、エラーメッセージをテキストで渡す必要があった。しかし、実際のバグは画面レイアウトの崩れや、意図しないUI状態として現れることが多い。画像理解があれば、これらの問題も直接AIに伝えられる。

PDFレポート、技術仕様書、アーキテクチャ図——これらの多くはテキストだけでなく、図表やチャートで情報を伝える。100万トークンのコンテキストウィンドウを持つPlusは、大量のドキュメントを画像付きで処理できる。

例えば、複数ページの技術仕様書を画像として渡し、「このAPIのレート制限は？」と質問すれば、図表内の情報も含めて回答できる。

2026年のAIエージェント開発で最も注目されている分野の一つが、画面を見ながら操作するAIだ。

Webアプリケーションのスクリーンショットを入力として受け取り、次にクリックすべきボタンや入力すべきフィールドを判断する——このようなUIエージェントには、画像理解が不可欠だ。

Qwen3.7-Plusは、この種のタスクに対してVision LM Arenaで16位の性能を示しており、中国モデルとしては上位に位置する。

マルチモーダルAI市場は激戦区だ。Qwen3.7-Plusの位置づけを確認する：

モデル	メーカー	画像理解	テキスト推論	価格（出力/1M）
GPT-5.5	OpenAI	◎	◎	—
Gemini 3.1 Pro	Google	◎	◎	$15.00
Claude Opus 4.7	Anthropic	○	◎	$25.00
Qwen3.7-Plus	Alibaba	◎	○	未定
Qwen3.7-Max	Alibaba	✕	◎	$7.50

GPT-5.5やGemini 3.1 Proはテキストと画像の両方で高い性能を持つ。Claude Opus 4.7はテキスト推論で最高だが、画像理解は限定的だ。

Qwen3.7-Plusの強みは、100万トークンのコンテキストと中国モデル特有のコスト競争力にある。正式価格がMax程度（$2.50/$7.50）であれば、Gemini 3.1 Pro（$15.00）の半分以下で同等のマルチモーダル能力を提供できる。

Qwen3.7-Plusは現在プレビュー段階であり、いくつかの制約がある：

正式リリース時には、これらの制約の一部が解消される可能性がある。

Qwen3.7-Plusの登場は、Alibabaの戦略が「テキスト最強」から「マルチモーダル対応」に移行していることを示している。

Maxが築いたテキスト推論の強さ（GPQA Diamond 92.4%、SWE-bench Pro 60.6%）を基盤に、Plusが画像理解を加えることで、Qwen3.7シリーズはより幅広いユースケースをカバーできるようになった。

2026年後半には、Qwen3.7-Plusの正式リリースと、より詳細なベンチマークデータの公開が予想される。その時、「テキスト最強のMax」と「マルチモーダルのPlus」の使い分けが、AI開発の標準的なパターンになるかもしれない。

シェア:X はてブ

読み込み中...