モデル一覧に戻る
xAIプロプライエタリ

Grok 4.3 Beta (Early Access)

Grok 4.3 Beta (Early Access)は、xAIが開発した推論モデルです。約5兆パラメータという大規模な構成と、200万トークンの極めて長いコンテキストウィンドウを特徴としています。

パラメータ

5000.0B

コンテキスト長

2000K

ライセンス

プロプライエタリ

リリース日

2026-05-17

API料金

このモデルのAPI料金情報は現在未公開です

強み

  • 約5兆の膨大なパラメータ数
  • 200万トークンの広大なコンテキスト
  • 高度な推論能力への特化

弱み

  • クローズドソースのライセンス
  • ベータ版による不安定さの可能性
  • 計算リソースの高い要求量

活用例

  • 超長文ドキュメントの解析
  • 複雑な論理的推論タスク
  • 大規模データのコンテキスト処理

深度分析

人工分析インテリジェンス指数

53

総合10位、Grok 4.20に対し+4

アリーナELO(テキスト総合)

1451

9,082票; コーディング: 1493

GDPval-AA(エージェントタスク)

1500 ELO

Grok 4.20に対し+321; GPT-5.5に対し276差

入力価格

$1.25/1Mトークン

Grok 4.20より37.5%安価

コンテキストウィンドウ

1Mトークン

Grok 4.20は最大コンテキストワークロード向けに2Mを維持

GPQA Diamond

90.1%

Easy Benchmarksで14位

ベンチマーク実行コスト (AA指数)

$395

Grok 4.20より約20%安価; GPT-5.5は約$3,959

強み

  • フロンティアティアでの最高コストパフォーマンス比:$1.25/M入力はインテリジェンスとコストのパレートフロンティアに位置し、Claude Opus 4.7と比べ約12倍安価
  • エージェントタスクの大幅な改善:実世界のエージェントベンチマークGDPval-AAで+321 ELO、Starlinkの本番環境での70%自律解決率により検証
  • ネイティブ動画入力とドキュメント生成(PDF、PPTX、XLSX)を備えた初のxAIモデルで、商用級動画理解におけるGeminiの独占を打破

弱み

  • どのティア(月額$300のSuperGrok Heavyプランを含む)にも永続メモリがなく、ステートフルなアプリケーションにはカスタムメモリ層が必要
  • 記録された「ナルコレプシー」のリグレッション:自律エージェントタスクで持続的シミュレーション(Andon Labs Vending-Bench 2)中に長時間の無活動が発生し、エージェントワークフローにおける本番リスク
  • コーディング性能がSWE-benchでClaude Opus 4.7に約14ポイント遅れ(約72% vs 約86%)、主要コーディングモデルとしての使用を排除

競合比較

ModelArenaSWEGPQAPrice
Claude Opus 4.7~1500~86%~92%~$15/$75
GPT-5.5 (xhigh)~1510~83%~93%$5/$30
Gemini 3.1 Pro Preview~1480~76%~91%~$1.25/$5.00

Grok 4.3(2026年4月30日ローンチ)は、xAIの最もコスト効率の高いフロンティアモデルであり、人工分析インテリジェンス指数で53ポイントを獲得しつつ、競合他社を大幅に下回る価格を実現しました。このモデルは、意図的な戦略的ピボットを表しています:生のインテリジェンスリーダーシップを追う(GPT-5.5は60、Claude Opus 4.7は約62〜67)のではなく、xAIは価格対性能フロンティアを最適化しました。前任のGrok 4.20と比較して、入力コストは37.5%、出力コストは58.3%低下しましたが、インテリジェンススコアは実際には向上しています。主要指標はGDPval-AA(実世界のエージェントタスクベンチマーク)で、Grok 4.3は321 ELOポイント跳ね上がって1500に到達し、Gemini 3.1 Pro、GPT-5.4 miniKimi K2.5を超えました。ただし、GPT-5.5 (xhigh) にはまだ276 ELOポイント差で遅れをとっています。

機能面では、Grok 4.3は本番環境に関連するいくつかの能力を導入しています:ネイティブ動画入力(商用動画理解APIにおけるGeminiの独占を打破)、組み込みドキュメント生成(会話から直接PDF、PowerPoint、スプレッドシートを生成)、および常時オンのチェーンオブソート推論。このモデルは約100トークン/秒で動作し、1Mトークンのコンテキストウィンドウを備えています(Grok 4.20の2Mからは減少ですが、旧モデルは最大コンテキストワークロード向けに引き続き利用可能です)。$0.20/Mトークンのプロンプトキャッシュにより、RAGや繰り返しコンテキストアプリケーションのコストをさらに削減します。xAIはまた、クリエイティブ制作ワークフロー向けのGrok Imagine Agent Modeをローンチし、自律デスクトップエージェントであるGrok Computerとの連携を強化しました。

ただし、Grok 4.3は顕著なギャップを伴って登場しました。永続メモリは$300/月のSuperGrok Heavyプランを含むどのティアにも存在しません。Andon Labsによる独立テストでは、持続的な自律タスクでの「ナルコレプシー」リグレッションが明らかになり、モデルが必要なアクションを取らずに待機することがあります。コーディング性能はClaude Opus 4.7に大きく遅れ(SWE-benchで約14ポイント差)、AA-Omniscience非幻覚率はGrok 4.20と比べて実際には8ポイント低下し、信頼性と高い精度スコアのトレードオフが生じています。このモデルは、汎用フロンティアリーダーとしてではなく、専門家として理解するのが最善です:絶対的な最高能力よりもインテリジェンス/ドルが重要な、長コンテキストのエージェントワークフロー、カスタマーサポート自動化、ドキュメント重視の分析パイプライン向けの最もコスト効率の高いオプションです。

分析生成日: 2026-05-23