モデル一覧に戻る
アリババプロプライエタリ

Qwen3-Max-Thinking

Qwen3-Max-Thinkingは、阿里巴巴によって開発された推論モデルです。約10兆パラメータという大規模な構成と、100万トークンの非常に長いコンテキストウィンドウを備えています。

パラメータ

10000.0B

コンテキスト長

1000K

ライセンス

プロプライエタリ

リリース日

2026-01-26

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 圧倒的なパラメータ規模
  • 100万トークンの長文読解
  • 高度な推論能力を追求

弱み

  • モデルが非公開のクローズド
  • ライセンスが限定的
  • 詳細な性能指標が未公開

活用例

  • 複雑な論理的推論の実行
  • 超大規模データの解析
  • 高度な問題解決の自動化

深度分析

リリース日

January 23, 2026

パラメータ

Proprietary (undisclosed)

コンテキストウィンドウ

262,144 tokens

アーキテクチャ

Decoder-only with extended thinking

入力価格

$0.78/1M tokens

出力価格

$3.90/1M tokens

GPQA ダイヤモンド

87.4

SWE-bench 検証済み

75.3

HLE(ツールあり)

49.8

APIモデル名

qwen3-max-2026-01-23

強み

  • 19の確立されたベンチマークにおいてGPT-5.2-ThinkingおよびClaude-Opus-4.5と競合可能
  • 適応的なツール使用:検索、メモリ、コードインタープリターを自律的に呼び出し
  • 優れたコストパフォーマンス:$0.78/$3.90の価格設定はGPT-5.2およびClaude Opus 4.5より大幅に安価
  • 評価対象のベンチマークで100%の信頼性率 — 出力生成に失敗しない
  • C-Eval(93.7)、ツール付きHLE(49.8)、およびコーディングタスク(97パーセンタイル)で高い性能

弱み

  • 一般知識は顕著な弱点であり(広範な事実の想起で23パーセンタイル)
  • MMLU-Pro(85.7対87.4)およびGPQA(87.4対92.4)でGPT-5.2-Thinkingに劣る
  • 現在、旗艦推論モデルとしてQwen3.7-Maxに部分的に置き換えられている
  • テスト時スケーリングはヘビーモードでレイテンシとトークンコストを増加させる
  • SWE-bench 75.3%はClaude Opus 4.5(80.9%)およびGPT-5.2(80.0%)に劣る

競合比較

ModelArenaSWEGPQAPrice
GPT-5.2-Thinking~150080.092.4Proprietary
Claude-Opus-4.5~149080.987.0Proprietary
Gemini 3 Pro~148076.291.9Proprietary
Qwen3-Max-Thinking~145075.387.4$0.78/$3.90
DeepSeek V3.2~143073.182.4Proprietary

Qwen3-Max-Thinkingは、2026年1月23日にリリースされたアリババのQwen3世代の旗艦推論モデルです。19のベンチマークでGPT-5.2-ThinkingおよびClaude-Opus-4.5と競争力のある性能を達成しつつ、大幅に低い価格(100万トークンあたり$0.78/$3.90)を提供しています。主な革新点には、適応的なツール使用能力と、反復的な自己反省を通じて推論を向上させる経験累積型テスト時スケーリング戦略が含まれます。

分析生成日: 2026-05-30