このモデルの強みは何ですか？

高度なマルチモーダル能力 256Kの長い文脈処理効率的な基盤モデル設計

このモデルの弱みは何ですか？

ライセンスがクローズド商用利用の制約がある利用権限に制限がある

どんな用途に最適ですか？

大規模ドキュメント解析マルチモーダルデータ処理長文コンテキストの分析

モデル一覧に戻る

アリババプロプライエタリ

Qwen3.5-Omni-Plus

Name: Qwen3.5-Omni-Plus
Author: アリババ

Qwen3.5-Omni-Plusは、阿里巴巴が開発した多模态大模型（マルチモーダル基盤モデル）です。256Kの広大なコンテキストウィンドウを備えており、高度な情報の処理能力を有しています。

パラメータ

非公開

コンテキスト長

256K

ライセンス

https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE

リリース日

2026-03-30

API料金

このモデルのAPI料金情報は現在未公開です

強み

・高度なマルチモーダル能力
・256Kの長い文脈処理
・効率的な基盤モデル設計

弱み

・ライセンスがクローズド
・商用利用の制約がある
・利用権限に制限がある

活用例

・大規模ドキュメント解析
・マルチモーダルデータ処理
・長文コンテキストの分析

深度分析

リリース日

March 30, 2026

総パラメータ数

~30B

MoE with ~3B active per token

アーキテクチャ

Thinker-Talker, Hybrid-Attention MoE

コンテキストウィンドウ

262,144 tokens

最大音声入力

10+ hours continuous

最大動画入力

400+ seconds at 720p/1FPS

音声認識

113 languages

音声生成

36 languages

MMAU（音声）

82.2

vs Gemini 3.1 Pro's 81.1

LibriSpeech 単語誤り率

1.11 (clean), 2.23 (other)

Cuts Gemini's error rate by ~2/3

強み

・音声、音声動画、視覚、テキストの各ベンチマークで215のSOTA（最先端）結果
・クラス最高の音声認識：113言語対応、LibriSpeech WER 1.11（Gemini比で2/3低減）
・ネイティブなエンドツーエンドマルチモーダル：Thinker-Talkerアーキテクチャをスクラッチから共同訓練
・短いサンプルからのボイスクローニング：Seed-zh安定性スコア1.07（ElevenLabsの13.08を上回る）
・最小限のテキスト性能差：MMLU-Redux 94.2（標準Qwen3.5-Plusの94.3に対し）

弱み

・快適なローカル推論には約40GBのVRAMが必要
・215のSOTA達成という主張には疑いが必要—ニッチなベンチマークでカウントを水増ししている
・実世界のノイズ環境での音声クローニングは十分に検証されていない
・ローンチ時点でAPI価格は完全に確定していない（TBD状態）
・テキスト専用ユースケースにとってマルチモーダルアーキテクチャは複雑さを増す

競合比較

Model	Arena	SWE	GPQA	Price
Gemini 3.1 Pro	~1480	N/A	~91	Proprietary
GPT-Audio	~1460	N/A	~89	Proprietary
Qwen3.5-Omni-Plus	N/A	N/A	~94.2 (MMLU)	TBD
ElevenLabs	N/A	N/A	N/A	Proprietary TTS
Minimax	N/A	N/A	N/A	Proprietary

概要

Qwen3.5-Omni-Plusは、Qwen3.5-Omniファミリーのフラッグシップバリアントであり、総パラメータ数約300億（アクティブは約30億）のネイティブオムニモーダルモデルです。テキスト、画像、音声、動画を処理し、単一のフォワードパスでテキストとストリーミング音声の両方を生成します。2026年3月30日にリリースされ、215のSOTA（最先端）結果を達成していると主張し、113言語でWER 1.11を記録するクラス最優の音声認識と、ElevenLabsを上回る音声の安定性を提供しています。

ベンチマーク＆性能

主要ベンチマーク：MMAU（音声理解）82.2 対 Gemini 3.1 Pro の 81.1、VoiceBench 93.1 対 88.9、LibriSpeech clean WER 1.11 対 3.36、LibriSpeech other WER 2.23 対 4.41。テキスト：MMLU-Redux 94.2、C-Eval 92.0。視覚：MMMU-Pro 73.9。音声クローニング：Seed-zh 安定性 1.07 対 ElevenLabs の 13.08 対 Gemini 2.5 Pro の 2.42。標準 Qwen3.5-Plus とのテキスト性能の差は最小限（MMLU-Redux で 94.2 対 94.3）。

詳細比較

モデル: qwen3-5-omni-plus 分野: 比較 LibriSpeechの両テストセットにおいてGemini 3.1 Proの音声認識エラーレートを約3分の2削減。VoiceBenchでの音声対話精度は4ポイント上回る。声質クロ

コミュニティ評価

ネイティブなマルチモーダルアプローチ（言語モデルにアダプターを付け足したものではない）に大きな興奮が生まれた。オーディオ・ビジュアルVibe Coding機能（カメラを向けてUIを説明するとコードが出力される）が開発者の想像力を捉えた。コミュニティはThinker-Talkerの共同学習を真のアーキテクチャ革新として評価している。 215のSOTA記録に対する健全な懐疑も存在する。 ElevenLabsとの比較を含む音声クローニング品質は広く共有された。

ユースケース

ボイスアシスタント、リアルタイム翻訳システム、アクセシビリティツール、音声/動画コンテンツ分析、ボイスクローンナレーション、マルチモーダル研究の構築に最適です。113言語対応の音声認識により、多言語アプリケーションに独自の価値を提供します。ストリーミング音声出力により、自然な対話型AIが実現します。テキスト専用のワークロードには、標準のQwen3.5-Plusがよりシンプルで安価です。予算重視のユースケースには、Flashバリアントが低レイテンシと低コストを提供します。