Qwen3.5-Omni-Flash
Qwen3.5-Omni-Flashは、阿里巴巴が開発した多模态大模型(マルチモーダル基盤モデル)です。256Kの広範なコンテキストウィンドウをサポートしており、効率的な処理を実現します。
パラメータ
非公開
コンテキスト長
256K
ライセンス
https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE
リリース日
2026-03-30
API料金
このモデルのAPI料金情報は現在未公開です
強み
- ・高度なマルチモーダル処理
- ・256Kの長いコンテキスト
- ・高速なレスポンス性能
弱み
- ・クローズドなライセンス体系
- ・詳細な評価指標の不足
- ・最新モデルのため実績少
活用例
- ・大規模ドキュメントの解析
- ・マルチモーダル情報の処理
- ・リアルタイム応答アプリ
深度分析
リリース日
March 30, 2026
アーキテクチャ
Thinker-Talker, Hybrid-Attention MoE
コンテキストウィンドウ
262,144 tokens
最大音声入力
10+ hours continuous
最大動画入力
400+ seconds at 720p/1FPS
音声認識
113 languages
音声生成
36 languages
入力モダリティ
Text, Image, Audio, Video
出力モダリティ
Text, Streaming Speech
API価格
~$0.065/1M text input, $0.260/1M output
Budget tier of Omni family
強み
- ・コスパ重視のオムニモーダルモデル:テキスト・画像・音声・動画入力に対応し音声出力も可能
- ・ネイティブなエンドツーエンド・マルチモーダル — アダプターや別途のTTSパイプラインは不要
- ・113言語の音声認識と36言語の音声生成に対応
- ・リアルタイム音声チャットアプリケーション向けの低遅延
- ・Apache 2.0ライセンスで、HuggingFace経由でのセルフホスティングが可能
弱み
- ・Plus版よりも音声・視覚ベンチマークの品質が低下
- ・複数の音声理解タスクでGemini 3.1 Proのベンチマークスコアを下回る
- ・特定のパラメータ数やアーキテクチャ詳細に関するドキュメントが限定的
- ・音声クローニング品質は専用TTSソリューションに匹敵しない可能性がある
- ・騒音環境での実世界性能は広範囲にテストされていない
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| Qwen3.5-Omni-Plus | N/A | N/A | ~94.2 (MMLU) | TBD |
| Gemini 3.1 Pro | ~1480 | N/A | ~91 | Proprietary |
| GPT-Audio | ~1460 | N/A | ~89 | Proprietary |
| Qwen3.5-Omni-Flash | N/A | N/A | ~92 (MMLU) | $0.065/$0.260 |
| ElevenLabs | N/A | N/A | N/A | Proprietary TTS |
Qwen3.5-Omni-Flashは、Qwen3.5-Omniファミリーのエントリーレベルモデルで、2026年3月30日にリリースされました。テキスト、画像、音声、動画を入力として受け付け、単一のフォワードパスでテキストとストリーミング音声の両方を出力する、ネイティブなオムニモーダルモデルです。Flashバリアントはベンチマーク品質を一部犠牲にしてレイテンシとコストを削減しており、リアルタイム音声チャットや高負荷アプリケーションに適しています。
出典
分析生成日: 2026-05-30