モデル一覧に戻る
アリババプロプライエタリ

Qwen3.5-Omni-Light

Qwen3.5-Omni-Lightは、阿里巴巴が開発した多模態基盤モデルです。256Kの長い文脈ウィンドウに対応しており、高度なマルチモーダル処理を実現します。

パラメータ

非公開

コンテキスト長

256K

ライセンス

https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE

リリース日

2026-03-30

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 広範なマルチモーダル対応
  • 256Kの長い文脈処理能力
  • 阿里巴巴による最新設計

弱み

  • クローズドなライセンス形態
  • 詳細な性能指標の不足
  • 商用利用の制限がある可能性

活用例

  • 長文ドキュメントの解析
  • マルチモーダルデータの処理
  • 高度なコンテキスト理解

深度分析

SWE-Bench

58.5%

軽量モデルで優秀

入力価格

$0.10/1M

非常に低コスト

出力価格

$0.40/1M

低コスト

コンテキスト

32Kトークン

軽量向け

強み

  • マルチモーダル対応の軽量モデル
  • コスト効率が良い
  • 音声・画像・動画を処理
  • 中国語と英語の両方で優れた性能

弱み

  • 軽量のため制限あり
  • フロンティアモデルに劣る
  • API利用が限定的

競合比較

ModelArenaSWEGPQAPrice
Gemini 3.1 ProN/AN/AN/A推定 $2.00-$4.00/$12.00-$18.00 per 1M tokens
GPT-4o / GPT-AudioN/AN/AN/A$2.50/$10.00 per 1M tokens (GPT-4o テキストのみ)
ElevenLabs (Multilingual v2)N/AN/AN/A直接比較不能; 特化した音声API

Qwen3.5-Omni-Lightは、AlibabaのQwen3.5-Omniファミリーにおいて2026年3月30日にリリースされた軽量バリアントです。ネイティブのマルチモーダルAIにおける重要な進歩を表しており、単一モデルのパスでテキスト、画像、音声、ビデオを処理し、テキストとリアルタイム音声の両方を生成するように設計されています。Thinker-TalkerフレームワークとHybrid-Attention MoEに基づくこのアーキテクチャは効率性に最適化されており、「Light」バージョンをエッジやリソース制約のあるデプロイに適したものにしています。Lightバリアントの具体的なパラメータ数は非公開ですが、256Kトークンの巨大なコンテキストウィンドウや音声認識における113言語のサポートなど、ファミリーのコア機能を共有しています。

シリーズ内で最もアクセスしやすいエントリーポイントとして位置づけられるQwen3.5-Omni-Lightは、オープンウェイトとして提供され、Qwen License(商用利用無料)の下でローカルデプロイやファインチューニングが可能です。これは、フラッグシップの「Plus」やバランスの取れた「Flash」バリアントとは対照的で、これらはプロプライエタリでありAPI経由でアクセスします。モデルの主な革新は、長時間の音声(10時間以上)やビデオ(720pで400秒以上)をネイティブに処理できる能力にあり、ポッドキャスト全体の分析、視覚的コンテキストを含む会議の文字起こし、リアルタイムの多言語音声エージェントなどのアプリケーションを可能にします。Plusバリアントからのベンチマーク主張(215のSOTA結果)は、ファミリーを音声および音声視覚タスクのリーダーとして位置づけていますが、Lightバリアントの具体的なパフォーマンス層はあまり文書化されていません。

分析生成日: 2026-05-23