モデル一覧に戻る
アリババプロプライエタリ

Qwen3.5-Omni-Flash

Qwen3.5-Omni-Flashは、阿里巴巴が開発した多模态大模型(マルチモーダル基盤モデル)です。256Kの広範なコンテキストウィンドウをサポートしており、効率的な処理を実現します。

パラメータ

非公開

コンテキスト長

256K

ライセンス

https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE

リリース日

2026-03-30

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 高度なマルチモーダル処理
  • 256Kの長いコンテキスト
  • 高速なレスポンス性能

弱み

  • クローズドなライセンス体系
  • 詳細な評価指標の不足
  • 最新モデルのため実績少

活用例

  • 大規模ドキュメントの解析
  • マルチモーダル情報の処理
  • リアルタイム応答アプリ

深度分析

リリース日

March 30, 2026

アーキテクチャ

Thinker-Talker, Hybrid-Attention MoE

コンテキストウィンドウ

262,144 tokens

最大音声入力

10+ hours continuous

最大動画入力

400+ seconds at 720p/1FPS

音声認識

113 languages

音声生成

36 languages

入力モダリティ

Text, Image, Audio, Video

出力モダリティ

Text, Streaming Speech

API価格

~$0.065/1M text input, $0.260/1M output

Budget tier of Omni family

強み

  • コスパ重視のオムニモーダルモデル:テキスト・画像・音声・動画入力に対応し音声出力も可能
  • ネイティブなエンドツーエンド・マルチモーダル — アダプターや別途のTTSパイプラインは不要
  • 113言語の音声認識と36言語の音声生成に対応
  • リアルタイム音声チャットアプリケーション向けの低遅延
  • Apache 2.0ライセンスで、HuggingFace経由でのセルフホスティングが可能

弱み

  • Plus版よりも音声・視覚ベンチマークの品質が低下
  • 複数の音声理解タスクでGemini 3.1 Proのベンチマークスコアを下回る
  • 特定のパラメータ数やアーキテクチャ詳細に関するドキュメントが限定的
  • 音声クローニング品質は専用TTSソリューションに匹敵しない可能性がある
  • 騒音環境での実世界性能は広範囲にテストされていない

競合比較

ModelArenaSWEGPQAPrice
Qwen3.5-Omni-PlusN/AN/A~94.2 (MMLU)TBD
Gemini 3.1 Pro~1480N/A~91Proprietary
GPT-Audio~1460N/A~89Proprietary
Qwen3.5-Omni-FlashN/AN/A~92 (MMLU)$0.065/$0.260
ElevenLabsN/AN/AN/AProprietary TTS

Qwen3.5-Omni-Flashは、Qwen3.5-Omniファミリーのエントリーレベルモデルで、2026年3月30日にリリースされました。テキスト、画像、音声、動画を入力として受け付け、単一のフォワードパスでテキストとストリーミング音声の両方を出力する、ネイティブなオムニモーダルモデルです。Flashバリアントはベンチマーク品質を一部犠牲にしてレイテンシとコストを削減しており、リアルタイム音声チャットや高負荷アプリケーションに適しています。

分析生成日: 2026-05-30