モデル一覧に戻る
アリババプロプライエタリ
Qwen3.5-35B-A3B
Qwen3.5-35B-A3Bは、阿里巴巴によって開発された推論モデルです。約350Bのパラメータ規模を誇り、最大1Mの広範なコンテキストウィンドウをサポートしています。
パラメータ
350.0B
コンテキスト長
1M
ライセンス
https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE
リリース日
2026-02-25
API料金
このモデルのAPI料金情報は現在未公開です
強み
- ・高度な推論能力
- ・1Mの長い文脈処理
- ・350Bの大規模パラメータ
弱み
- ・クローズドなライセンス
- ・高い計算リソース要求
- ・商用利用の制限
活用例
- ・複雑な論理推論
- ・超長文ドキュメント解析
- ・高度な知識抽出
深度分析
リリース日
February 2026
総パラメータ数
35B
MoE with 256 experts
アクティブパラメータ
3B per token
わずか30億がアクティブ — 超効率的
コンテキストウィンドウ
262,144 tokens
アーキテクチャ
Hybrid MoE: Gated DeltaNet + Gated Attention
モダリティ
Text, Image, Video
推論速度
196 tok/s on RTX 4090
111 tok/s on RTX 3090 at Q4
VRAM(Q4)
~22 GB
ライセンス
Apache 2.0
AAインテリジェンス指数
37
15のクラス中央値の2倍以上
強み
- ・驚異的な速度: RTX 4090において、トークンあたりわずか3Bのアクティブパラメータで196トークン/秒
- ・はるかに小型ながら、コアベンチマークで前世代のQwen3-235B-A22Bを上回る
- ・Q4量子化で単一のRTX 3090/4090に搭載可能(VRAM約22GB)
- ・コミュニティの人気モデル: r/LocalLLaMAは実用的なタスクにおいて「これさえあれば十分」と評価
- ・テキスト、画像、動画をネイティブにサポートするマルチモーダル対応
弱み
- ・アクティブパラメータが3Bのみであるため、最も複雑な推論タスクでの性能が制限される
- ・創作ライティングの品質は、高密度な27Bモデルに劣る可能性がある
- ・LiveCodeBenchでの性能は、より大規模なモデルに及ばない
- ・MoEアーキテクチャにもかかわらず、メモリ内には完全な35Bのパラメータ重みが依然として必要
- ・後継モデルQwen3.6-35B-A3Bが既に発表されており、やや時代遅れになっている
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| Qwen3.5-27B | ~1400 | ~68 | 85.5 | Open-source |
| Qwen3.5-9B | ~1370 | ~60 | 81.7 | Open-source |
| Llama 4 Scout | ~1380 | ~65 | ~80 | Open-source |
| Qwen3.5-35B-A3B | ~1390 | ~65 | ~83 | Open-source |
| Mistral Large | ~1380 | ~64 | ~78 | Open-source |
Qwen3.5-35B-A3Bは、Qwen3.5ファミリーのスピードチャンピオンであり——35BのMoEモデルでありながらトークンあたりわずか3Bのパラメータを活性化し、RTX 4090でのQ4量子化時に196トークン/秒を達成します。最小限のアクティブ計算でありながら、コアベンチマークで前世代の235B-A22Bモデルを上回ります。単一のコンシューマーGPUに余裕を持って収まり、コミュニティがローカルAIのデイリードライバーとして推奨するモデルです。
出典
分析生成日: 2026-05-30