このモデルの強みは何ですか？

圧倒的なパラメータ規模 100万トークンの長文読解高度な推論能力を追求

このモデルの弱みは何ですか？

モデルが非公開のクローズドライセンスが限定的詳細な性能指標が未公開

どんな用途に最適ですか？

複雑な論理的推論の実行超大規模データの解析高度な問題解決の自動化

モデル一覧に戻る

アリババプロプライエタリ

Qwen3-Max-Thinking

Name: Qwen3-Max-Thinking
Author: アリババ

Qwen3-Max-Thinkingは、阿里巴巴によって開発された推論モデルです。約10兆パラメータという大規模な構成と、100万トークンの非常に長いコンテキストウィンドウを備えています。

パラメータ

10000.0B

コンテキスト長

1000K

ライセンス

プロプライエタリ

リリース日

2026-01-26

API料金

このモデルのAPI料金情報は現在未公開です

強み

・圧倒的なパラメータ規模
・100万トークンの長文読解
・高度な推論能力を追求

弱み

・モデルが非公開のクローズド
・ライセンスが限定的
・詳細な性能指標が未公開

活用例

・複雑な論理的推論の実行
・超大規模データの解析
・高度な問題解決の自動化

深度分析

リリース日

January 23, 2026

パラメータ

Proprietary (undisclosed)

コンテキストウィンドウ

262,144 tokens

アーキテクチャ

Decoder-only with extended thinking

入力価格

$0.78/1M tokens

出力価格

$3.90/1M tokens

GPQA ダイヤモンド

87.4

SWE-bench 検証済み

75.3

HLE（ツールあり）

49.8

APIモデル名

qwen3-max-2026-01-23

強み

・19の確立されたベンチマークにおいてGPT-5.2-ThinkingおよびClaude-Opus-4.5と競合可能
・適応的なツール使用：検索、メモリ、コードインタープリターを自律的に呼び出し
・優れたコストパフォーマンス：$0.78/$3.90の価格設定はGPT-5.2およびClaude Opus 4.5より大幅に安価
・評価対象のベンチマークで100%の信頼性率 — 出力生成に失敗しない
・C-Eval（93.7）、ツール付きHLE（49.8）、およびコーディングタスク（97パーセンタイル）で高い性能

弱み

・一般知識は顕著な弱点であり（広範な事実の想起で23パーセンタイル）
・MMLU-Pro（85.7対87.4）およびGPQA（87.4対92.4）でGPT-5.2-Thinkingに劣る
・現在、旗艦推論モデルとしてQwen3.7-Maxに部分的に置き換えられている
・テスト時スケーリングはヘビーモードでレイテンシとトークンコストを増加させる
・SWE-bench 75.3%はClaude Opus 4.5（80.9%）およびGPT-5.2（80.0%）に劣る

競合比較

Model	Arena	SWE	GPQA	Price
GPT-5.2-Thinking	~1500	80.0	92.4	Proprietary
Claude-Opus-4.5	~1490	80.9	87.0	Proprietary
Gemini 3 Pro	~1480	76.2	91.9	Proprietary
Qwen3-Max-Thinking	~1450	75.3	87.4	$0.78/$3.90
DeepSeek V3.2	~1430	73.1	82.4	Proprietary

概要

Qwen3-Max-Thinkingは、2026年1月23日にリリースされたアリババのQwen3世代の旗艦推論モデルです。19のベンチマークでGPT-5.2-ThinkingおよびClaude-Opus-4.5と競争力のある性能を達成しつつ、大幅に低い価格（100万トークンあたり$0.78/$3.90）を提供しています。主な革新点には、適応的なツール使用能力と、反復的な自己反省を通じて推論を向上させる経験累積型テスト時スケーリング戦略が含まれます。

ベンチマーク＆性能

Competitive across reasoning: GPQA Diamond 87.4, HMMT Feb 2025 98.0, HMMT Nov 2025 94.7, IMOAnswerBench 83.9, LiveCodeBench v6 85.9, HLE with tools 49.8. Knowledge: MMLU-Pro 85.7, C-Eval 93.7. Coding: SWE-Verified 75.3. Instruction following: IFBench 70.9, MultiChallenge 63.3. Long context: AA-LCR 68.7. Test-time scaling pushes GPQA from 90.3 to 92.8, LiveCodeBench from 88.0 to 91.4, and IMO-AnswerBench from 89.5 to 91.5.

詳細比較

ほとんどのベンチマークでGPT-5.2-ThinkingとDeepSeek V3.2の間に位置している。C-Eval（93.7）では、GPT-5.2（90.5）やClaude Opus（92.2）を含むすべての競合を上回る。ツール付きHLE（49.8）では、すべての競合をリードしている。しかしながら、GPQA（87.4対GPT-5.2の92.4）およびSWE-bench（75.3対Claude Opusの80.9）では後れを取っている。$0.78/$3.90という価格で、GPT-5.2やClaude Opusの価格と比較して大幅に安い。

コミュニティ評価

競争力のある価格帯で強力な推論モデルとして高く評価されている。アダプティブなツール使用機能（自律検索、メモリ、コードインタープリタ）は、単なるギミックではなく実用的であると評価された。100%の信頼性は本番運用において重宝されている。現在はQwen3.7-Maxにやや掩われているものの、コストを重視した推論ワークロードでは依然として有効である。Anthropic APIプロトコル経由でClaude Codeと互換性がある。

ユースケース

複雑な推論タスク、数学的問題解決、科学的分析、および長時間思考が結果を向上させるコーディングに最適です。適応的なツール使用により、研究アシスタントや知識集約型ワークフローに適しています。$0.78/$3.90という価格で、同じ品質ティアのモデル中でドルあたりの推論性能が最も優れています。絶対的に最高の推論性能が必要な場合は、Qwen3.7-MaxやGPT-5.5の方が強力ですが、より高価です。Alibaba Cloud Model StudioおよびOpenRouterで利用可能です。