モデル一覧に戻る
アリババプロプライエタリ

Qwen3.5-35B-A3B

Qwen3.5-35B-A3Bは、阿里巴巴によって開発された推論モデルです。約350Bのパラメータ規模を誇り、最大1Mの広範なコンテキストウィンドウをサポートしています。

パラメータ

350.0B

コンテキスト長

1M

ライセンス

https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE

リリース日

2026-02-25

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 高度な推論能力
  • 1Mの長い文脈処理
  • 350Bの大規模パラメータ

弱み

  • クローズドなライセンス
  • 高い計算リソース要求
  • 商用利用の制限

活用例

  • 複雑な論理推論
  • 超長文ドキュメント解析
  • 高度な知識抽出

深度分析

リリース日

February 2026

総パラメータ数

35B

MoE with 256 experts

アクティブパラメータ

3B per token

わずか30億がアクティブ — 超効率的

コンテキストウィンドウ

262,144 tokens

アーキテクチャ

Hybrid MoE: Gated DeltaNet + Gated Attention

モダリティ

Text, Image, Video

推論速度

196 tok/s on RTX 4090

111 tok/s on RTX 3090 at Q4

VRAM(Q4)

~22 GB

ライセンス

Apache 2.0

AAインテリジェンス指数

37

15のクラス中央値の2倍以上

強み

  • 驚異的な速度: RTX 4090において、トークンあたりわずか3Bのアクティブパラメータで196トークン/秒
  • はるかに小型ながら、コアベンチマークで前世代のQwen3-235B-A22Bを上回る
  • Q4量子化で単一のRTX 3090/4090に搭載可能(VRAM約22GB)
  • コミュニティの人気モデル: r/LocalLLaMAは実用的なタスクにおいて「これさえあれば十分」と評価
  • テキスト、画像、動画をネイティブにサポートするマルチモーダル対応

弱み

  • アクティブパラメータが3Bのみであるため、最も複雑な推論タスクでの性能が制限される
  • 創作ライティングの品質は、高密度な27Bモデルに劣る可能性がある
  • LiveCodeBenchでの性能は、より大規模なモデルに及ばない
  • MoEアーキテクチャにもかかわらず、メモリ内には完全な35Bのパラメータ重みが依然として必要
  • 後継モデルQwen3.6-35B-A3Bが既に発表されており、やや時代遅れになっている

競合比較

ModelArenaSWEGPQAPrice
Qwen3.5-27B~1400~6885.5Open-source
Qwen3.5-9B~1370~6081.7Open-source
Llama 4 Scout~1380~65~80Open-source
Qwen3.5-35B-A3B~1390~65~83Open-source
Mistral Large~1380~64~78Open-source

Qwen3.5-35B-A3Bは、Qwen3.5ファミリーのスピードチャンピオンであり——35BのMoEモデルでありながらトークンあたりわずか3Bのパラメータを活性化し、RTX 4090でのQ4量子化時に196トークン/秒を達成します。最小限のアクティブ計算でありながら、コアベンチマークで前世代の235B-A22Bモデルを上回ります。単一のコンシューマーGPUに余裕を持って収まり、コミュニティがローカルAIのデイリードライバーとして推奨するモデルです。

分析生成日: 2026-05-30