Grok 4.3 Beta (Early Access)
Grok 4.3 Beta (Early Access)は、xAIが開発した推論モデルです。約5兆パラメータという大規模な構成と、200万トークンの極めて長いコンテキストウィンドウを特徴としています。
パラメータ
5000.0B
コンテキスト長
2000K
ライセンス
プロプライエタリ
リリース日
2026-05-17
API料金
このモデルのAPI料金情報は現在未公開です
強み
- ・約5兆の膨大なパラメータ数
- ・200万トークンの広大なコンテキスト
- ・高度な推論能力への特化
弱み
- ・クローズドソースのライセンス
- ・ベータ版による不安定さの可能性
- ・計算リソースの高い要求量
活用例
- ・超長文ドキュメントの解析
- ・複雑な論理的推論タスク
- ・大規模データのコンテキスト処理
深度分析
人工分析インテリジェンス指数
53
総合10位、Grok 4.20に対し+4
アリーナELO(テキスト総合)
1451
9,082票; コーディング: 1493
GDPval-AA(エージェントタスク)
1500 ELO
Grok 4.20に対し+321; GPT-5.5に対し276差
入力価格
$1.25/1Mトークン
Grok 4.20より37.5%安価
コンテキストウィンドウ
1Mトークン
Grok 4.20は最大コンテキストワークロード向けに2Mを維持
GPQA Diamond
90.1%
Easy Benchmarksで14位
ベンチマーク実行コスト (AA指数)
$395
Grok 4.20より約20%安価; GPT-5.5は約$3,959
強み
- ・フロンティアティアでの最高コストパフォーマンス比:$1.25/M入力はインテリジェンスとコストのパレートフロンティアに位置し、Claude Opus 4.7と比べ約12倍安価
- ・エージェントタスクの大幅な改善:実世界のエージェントベンチマークGDPval-AAで+321 ELO、Starlinkの本番環境での70%自律解決率により検証
- ・ネイティブ動画入力とドキュメント生成(PDF、PPTX、XLSX)を備えた初のxAIモデルで、商用級動画理解におけるGeminiの独占を打破
弱み
- ・どのティア(月額$300のSuperGrok Heavyプランを含む)にも永続メモリがなく、ステートフルなアプリケーションにはカスタムメモリ層が必要
- ・記録された「ナルコレプシー」のリグレッション:自律エージェントタスクで持続的シミュレーション(Andon Labs Vending-Bench 2)中に長時間の無活動が発生し、エージェントワークフローにおける本番リスク
- ・コーディング性能がSWE-benchでClaude Opus 4.7に約14ポイント遅れ(約72% vs 約86%)、主要コーディングモデルとしての使用を排除
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| Claude Opus 4.7 | ~1500 | ~86% | ~92% | ~$15/$75 |
| GPT-5.5 (xhigh) | ~1510 | ~83% | ~93% | $5/$30 |
| Gemini 3.1 Pro Preview | ~1480 | ~76% | ~91% | ~$1.25/$5.00 |
Grok 4.3(2026年4月30日ローンチ)は、xAIの最もコスト効率の高いフロンティアモデルであり、人工分析インテリジェンス指数で53ポイントを獲得しつつ、競合他社を大幅に下回る価格を実現しました。このモデルは、意図的な戦略的ピボットを表しています:生のインテリジェンスリーダーシップを追う(GPT-5.5は60、Claude Opus 4.7は約62〜67)のではなく、xAIは価格対性能フロンティアを最適化しました。前任のGrok 4.20と比較して、入力コストは37.5%、出力コストは58.3%低下しましたが、インテリジェンススコアは実際には向上しています。主要指標はGDPval-AA(実世界のエージェントタスクベンチマーク)で、Grok 4.3は321 ELOポイント跳ね上がって1500に到達し、Gemini 3.1 Pro、GPT-5.4 mini、Kimi K2.5を超えました。ただし、GPT-5.5 (xhigh) にはまだ276 ELOポイント差で遅れをとっています。
機能面では、Grok 4.3は本番環境に関連するいくつかの能力を導入しています:ネイティブ動画入力(商用動画理解APIにおけるGeminiの独占を打破)、組み込みドキュメント生成(会話から直接PDF、PowerPoint、スプレッドシートを生成)、および常時オンのチェーンオブソート推論。このモデルは約100トークン/秒で動作し、1Mトークンのコンテキストウィンドウを備えています(Grok 4.20の2Mからは減少ですが、旧モデルは最大コンテキストワークロード向けに引き続き利用可能です)。$0.20/Mトークンのプロンプトキャッシュにより、RAGや繰り返しコンテキストアプリケーションのコストをさらに削減します。xAIはまた、クリエイティブ制作ワークフロー向けのGrok Imagine Agent Modeをローンチし、自律デスクトップエージェントであるGrok Computerとの連携を強化しました。
ただし、Grok 4.3は顕著なギャップを伴って登場しました。永続メモリは$300/月のSuperGrok Heavyプランを含むどのティアにも存在しません。Andon Labsによる独立テストでは、持続的な自律タスクでの「ナルコレプシー」リグレッションが明らかになり、モデルが必要なアクションを取らずに待機することがあります。コーディング性能はClaude Opus 4.7に大きく遅れ(SWE-benchで約14ポイント差)、AA-Omniscience非幻覚率はGrok 4.20と比べて実際には8ポイント低下し、信頼性と高い精度スコアのトレードオフが生じています。このモデルは、汎用フロンティアリーダーとしてではなく、専門家として理解するのが最善です:絶対的な最高能力よりもインテリジェンス/ドルが重要な、長コンテキストのエージェントワークフロー、カスタマーサポート自動化、ドキュメント重視の分析パイプライン向けの最もコスト効率の高いオプションです。
出典
- xAI launches Grok 4.3 with improved agentic performance and lower pricing
- Grok 4.3 (high) | Easy Benchmarks
- Grok 4.3 Scores 53 On Artificial Analysis Intelligence Index (OfficeChai)
- xAI drops Grok 4.3 with steep price cuts and an Imagine agent mode
- Grok 4.3 Benchmarks 2026: Scores, Rankings & Performance | BenchLM.ai
- Grok 4.3 Review 2026: xAI's Cheapest Frontier Model — Benchmarks & Verdict | NivaaLabs
- Grok 4.3 Review 2026: Native Video, File Output, and the $300/Month Question | AI Tool Bolt
- Grok 4.3 Beta Review 2026: Agentic Tools, Files & Spreadsheets Tested | The AI Journal
- Grok 4.3 Is Here (Beta): What's New, What's Different | AIprixa
- Grok 4.3: characteristics, pricing, benchmarks | DataStudios
分析生成日: 2026-05-23