Qwen3.5-Omni-Plus
Qwen3.5-Omni-Plusは、阿里巴巴が開発した多模态大模型(マルチモーダル基盤モデル)です。256Kの広大なコンテキストウィンドウを備えており、高度な情報の処理能力を有しています。
パラメータ
非公開
コンテキスト長
256K
ライセンス
https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE
リリース日
2026-03-30
API料金
このモデルのAPI料金情報は現在未公開です
強み
- ・高度なマルチモーダル能力
- ・256Kの長い文脈処理
- ・効率的な基盤モデル設計
弱み
- ・ライセンスがクローズド
- ・商用利用の制約がある
- ・利用権限に制限がある
活用例
- ・大規模ドキュメント解析
- ・マルチモーダルデータ処理
- ・長文コンテキストの分析
深度分析
リリース日
March 30, 2026
総パラメータ数
~30B
MoE with ~3B active per token
アーキテクチャ
Thinker-Talker, Hybrid-Attention MoE
コンテキストウィンドウ
262,144 tokens
最大音声入力
10+ hours continuous
最大動画入力
400+ seconds at 720p/1FPS
音声認識
113 languages
音声生成
36 languages
MMAU(音声)
82.2
vs Gemini 3.1 Pro's 81.1
LibriSpeech 単語誤り率
1.11 (clean), 2.23 (other)
Cuts Gemini's error rate by ~2/3
強み
- ・音声、音声動画、視覚、テキストの各ベンチマークで215のSOTA(最先端)結果
- ・クラス最高の音声認識:113言語対応、LibriSpeech WER 1.11(Gemini比で2/3低減)
- ・ネイティブなエンドツーエンドマルチモーダル:Thinker-Talkerアーキテクチャをスクラッチから共同訓練
- ・短いサンプルからのボイスクローニング:Seed-zh安定性スコア1.07(ElevenLabsの13.08を上回る)
- ・最小限のテキスト性能差:MMLU-Redux 94.2(標準Qwen3.5-Plusの94.3に対し)
弱み
- ・快適なローカル推論には約40GBのVRAMが必要
- ・215のSOTA達成という主張には疑いが必要—ニッチなベンチマークでカウントを水増ししている
- ・実世界のノイズ環境での音声クローニングは十分に検証されていない
- ・ローンチ時点でAPI価格は完全に確定していない(TBD状態)
- ・テキスト専用ユースケースにとってマルチモーダルアーキテクチャは複雑さを増す
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| Gemini 3.1 Pro | ~1480 | N/A | ~91 | Proprietary |
| GPT-Audio | ~1460 | N/A | ~89 | Proprietary |
| Qwen3.5-Omni-Plus | N/A | N/A | ~94.2 (MMLU) | TBD |
| ElevenLabs | N/A | N/A | N/A | Proprietary TTS |
| Minimax | N/A | N/A | N/A | Proprietary |
Qwen3.5-Omni-Plusは、Qwen3.5-Omniファミリーのフラッグシップバリアントであり、総パラメータ数約300億(アクティブは約30億)のネイティブオムニモーダルモデルです。テキスト、画像、音声、動画を処理し、単一のフォワードパスでテキストとストリーミング音声の両方を生成します。2026年3月30日にリリースされ、215のSOTA(最先端)結果を達成していると主張し、113言語でWER 1.11を記録するクラス最優の音声認識と、ElevenLabsを上回る音声の安定性を提供しています。
出典
分析生成日: 2026-05-30