このモデルの強みは何ですか？

高度な推論能力 1Mの長い文脈処理 350Bの大規模パラメータ

このモデルの弱みは何ですか？

クローズドなライセンス高い計算リソース要求商用利用の制限

どんな用途に最適ですか？

複雑な論理推論超長文ドキュメント解析高度な知識抽出

モデル一覧に戻る

アリババプロプライエタリ

Qwen3.5-35B-A3B

Name: Qwen3.5-35B-A3B
Author: アリババ

Qwen3.5-35B-A3Bは、阿里巴巴によって開発された推論モデルです。約350Bのパラメータ規模を誇り、最大1Mの広範なコンテキストウィンドウをサポートしています。

パラメータ

350.0B

コンテキスト長

ライセンス

https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE

リリース日

2026-02-25

API料金

このモデルのAPI料金情報は現在未公開です

強み

・高度な推論能力
・1Mの長い文脈処理
・350Bの大規模パラメータ

弱み

・クローズドなライセンス
・高い計算リソース要求
・商用利用の制限

活用例

・複雑な論理推論
・超長文ドキュメント解析
・高度な知識抽出

深度分析

リリース日

February 2026

総パラメータ数

35B

MoE with 256 experts

アクティブパラメータ

3B per token

わずか30億がアクティブ — 超効率的

コンテキストウィンドウ

262,144 tokens

アーキテクチャ

Hybrid MoE: Gated DeltaNet + Gated Attention

モダリティ

Text, Image, Video

推論速度

196 tok/s on RTX 4090

111 tok/s on RTX 3090 at Q4

VRAM（Q4）

~22 GB

ライセンス

Apache 2.0

AAインテリジェンス指数

15のクラス中央値の2倍以上

強み

・驚異的な速度: RTX 4090において、トークンあたりわずか3Bのアクティブパラメータで196トークン/秒
・はるかに小型ながら、コアベンチマークで前世代のQwen3-235B-A22Bを上回る
・Q4量子化で単一のRTX 3090/4090に搭載可能（VRAM約22GB）
・コミュニティの人気モデル: r/LocalLLaMAは実用的なタスクにおいて「これさえあれば十分」と評価
・テキスト、画像、動画をネイティブにサポートするマルチモーダル対応

弱み

・アクティブパラメータが3Bのみであるため、最も複雑な推論タスクでの性能が制限される
・創作ライティングの品質は、高密度な27Bモデルに劣る可能性がある
・LiveCodeBenchでの性能は、より大規模なモデルに及ばない
・MoEアーキテクチャにもかかわらず、メモリ内には完全な35Bのパラメータ重みが依然として必要
・後継モデルQwen3.6-35B-A3Bが既に発表されており、やや時代遅れになっている

競合比較

Model	Arena	SWE	GPQA	Price
Qwen3.5-27B	~1400	~68	85.5	Open-source
Qwen3.5-9B	~1370	~60	81.7	Open-source
Llama 4 Scout	~1380	~65	~80	Open-source
Qwen3.5-35B-A3B	~1390	~65	~83	Open-source
Mistral Large	~1380	~64	~78	Open-source

概要

Qwen3.5-35B-A3Bは、Qwen3.5ファミリーのスピードチャンピオンであり——35BのMoEモデルでありながらトークンあたりわずか3Bのパラメータを活性化し、RTX 4090でのQ4量子化時に196トークン/秒を達成します。最小限のアクティブ計算でありながら、コアベンチマークで前世代の235B-A22Bモデルを上回ります。単一のコンシューマーGPUに余裕を持って収まり、コミュニティがローカルAIのデイリードライバーとして推奨するモデルです。

ベンチマーク＆性能

35B-A3Bは、そのクラスをはるかに超える性能を発揮する。Artificial Analysis Intelligence Indexでは37と評価されており、同クラスの中央値15の2倍以上に達する。MMLU-Proでは~82程度、GPQA Diamondでは~83のスコアを記録し、指示追従能力も優秀だ。最大の特筆点は速度の優位性である：RTX 4090では196 tok/s、RTX 3090（Q4）では111 tok/sを達成する。MLX経由のM4 Maxでは60-70 tok/sを記録する。この速度により、リアルタイム対話アプリケーションでの実用が可能となる。

詳細比較

27Bのdenseモデルと比較して：著しく高速（4090で196対35 tok/s）だが、創作ライティングや複雑な推論では品質がやや低下。9Bと比較して：わずかにVRAMを増やすだけで推論タスクでより高い能力を発揮。Llama 4 ScoutおよびMistral Largeと比較して：同等の品質で劇的に優れた推論速度。3Bのアクティブパラメータ設計により、推論コストは3Bのdenseモデルと同等。

コミュニティ評価

r/LocalLLaMAおよびローカルAIコミュニティで熱狂的な反響。コンシューマーGPUへの展開に最適なモデルとして広く推奨されており、ユーザーは速度と品質のバランスを高く評価している。「必要なものはこれだけ」というニックネームは、実世界でのパフォーマンスに対する純粋な満足感を反映している。一部のユーザーは文章作成が多いタスクで27Bを好む。Qwen3.6-35B-A3B後継モデルの発表も、3.5バージョンへの熱意を減退させていない。

ユースケース

24GBのGPUを持つローカルAI愛好家や開発者に最適なモデルです。コーディング支援、バッチ処理、エージェントワークフロー、チャット、要約、文書分析に優れています。高速性により、リアルタイムアプリケーションやインタラクティブな開発に適しています。創作の場合は、27B denseモデルの方が好ましい場合があります。チームで利用する場合は、DashScopeや各種プロバイダーを通じたAPIアクセスにより、ハードウェアの心配がなくなります。