モデル一覧に戻る
アリババプロプライエタリ

Qwen3.5-Omni-Plus

Qwen3.5-Omni-Plusは、阿里巴巴が開発した多模态大模型(マルチモーダル基盤モデル)です。256Kの広大なコンテキストウィンドウを備えており、高度な情報の処理能力を有しています。

パラメータ

非公開

コンテキスト長

256K

ライセンス

https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE

リリース日

2026-03-30

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 高度なマルチモーダル能力
  • 256Kの長い文脈処理
  • 効率的な基盤モデル設計

弱み

  • ライセンスがクローズド
  • 商用利用の制約がある
  • 利用権限に制限がある

活用例

  • 大規模ドキュメント解析
  • マルチモーダルデータ処理
  • 長文コンテキストの分析

深度分析

リリース日

March 30, 2026

総パラメータ数

~30B

MoE with ~3B active per token

アーキテクチャ

Thinker-Talker, Hybrid-Attention MoE

コンテキストウィンドウ

262,144 tokens

最大音声入力

10+ hours continuous

最大動画入力

400+ seconds at 720p/1FPS

音声認識

113 languages

音声生成

36 languages

MMAU(音声)

82.2

vs Gemini 3.1 Pro's 81.1

LibriSpeech 単語誤り率

1.11 (clean), 2.23 (other)

Cuts Gemini's error rate by ~2/3

強み

  • 音声、音声動画、視覚、テキストの各ベンチマークで215のSOTA(最先端)結果
  • クラス最高の音声認識:113言語対応、LibriSpeech WER 1.11(Gemini比で2/3低減)
  • ネイティブなエンドツーエンドマルチモーダル:Thinker-Talkerアーキテクチャをスクラッチから共同訓練
  • 短いサンプルからのボイスクローニング:Seed-zh安定性スコア1.07(ElevenLabsの13.08を上回る)
  • 最小限のテキスト性能差:MMLU-Redux 94.2(標準Qwen3.5-Plusの94.3に対し)

弱み

  • 快適なローカル推論には約40GBのVRAMが必要
  • 215のSOTA達成という主張には疑いが必要—ニッチなベンチマークでカウントを水増ししている
  • 実世界のノイズ環境での音声クローニングは十分に検証されていない
  • ローンチ時点でAPI価格は完全に確定していない(TBD状態)
  • テキスト専用ユースケースにとってマルチモーダルアーキテクチャは複雑さを増す

競合比較

ModelArenaSWEGPQAPrice
Gemini 3.1 Pro~1480N/A~91Proprietary
GPT-Audio~1460N/A~89Proprietary
Qwen3.5-Omni-PlusN/AN/A~94.2 (MMLU)TBD
ElevenLabsN/AN/AN/AProprietary TTS
MinimaxN/AN/AN/AProprietary

Qwen3.5-Omni-Plusは、Qwen3.5-Omniファミリーのフラッグシップバリアントであり、総パラメータ数約300億(アクティブは約30億)のネイティブオムニモーダルモデルです。テキスト、画像、音声、動画を処理し、単一のフォワードパスでテキストとストリーミング音声の両方を生成します。2026年3月30日にリリースされ、215のSOTA(最先端)結果を達成していると主張し、113言語でWER 1.11を記録するクラス最優の音声認識と、ElevenLabsを上回る音声の安定性を提供しています。

分析生成日: 2026-05-30