このモデルの強みは何ですか？

約5兆の膨大なパラメータ数 200万トークンの広大なコンテキスト高度な推論能力への特化

このモデルの弱みは何ですか？

クローズドソースのライセンスベータ版による不安定さの可能性計算リソースの高い要求量

どんな用途に最適ですか？

超長文ドキュメントの解析複雑な論理的推論タスク大規模データのコンテキスト処理

モデル一覧に戻る

xAIプロプライエタリ

Grok 4.3 Beta (Early Access)

Name: Grok 4.3 Beta (Early Access)
Author: xAI

Grok 4.3 Beta (Early Access)は、xAIが開発した推論モデルです。約5兆パラメータという大規模な構成と、200万トークンの極めて長いコンテキストウィンドウを特徴としています。

パラメータ

5000.0B

コンテキスト長

2000K

ライセンス

プロプライエタリ

リリース日

2026-05-17

API料金

このモデルのAPI料金情報は現在未公開です

強み

・約5兆の膨大なパラメータ数
・200万トークンの広大なコンテキスト
・高度な推論能力への特化

弱み

・クローズドソースのライセンス
・ベータ版による不安定さの可能性
・計算リソースの高い要求量

活用例

・超長文ドキュメントの解析
・複雑な論理的推論タスク
・大規模データのコンテキスト処理

深度分析

人工分析インテリジェンス指数

総合10位、Grok 4.20に対し+4

アリーナELO（テキスト総合）

1451

9,082票; コーディング: 1493

GDPval-AA（エージェントタスク）

1500 ELO

Grok 4.20に対し+321; GPT-5.5に対し276差

入力価格

$1.25/1Mトークン

Grok 4.20より37.5%安価

コンテキストウィンドウ

1Mトークン

Grok 4.20は最大コンテキストワークロード向けに2Mを維持

GPQA Diamond

90.1%

Easy Benchmarksで14位

ベンチマーク実行コスト (AA指数)

$395

Grok 4.20より約20%安価; GPT-5.5は約$3,959

強み

・フロンティアティアでの最高コストパフォーマンス比：$1.25/M入力はインテリジェンスとコストのパレートフロンティアに位置し、Claude Opus 4.7と比べ約12倍安価
・エージェントタスクの大幅な改善：実世界のエージェントベンチマークGDPval-AAで+321 ELO、Starlinkの本番環境での70%自律解決率により検証
・ネイティブ動画入力とドキュメント生成（PDF、PPTX、XLSX）を備えた初のxAIモデルで、商用級動画理解におけるGeminiの独占を打破

弱み

・どのティア（月額$300のSuperGrok Heavyプランを含む）にも永続メモリがなく、ステートフルなアプリケーションにはカスタムメモリ層が必要
・記録された「ナルコレプシー」のリグレッション：自律エージェントタスクで持続的シミュレーション（Andon Labs Vending-Bench 2）中に長時間の無活動が発生し、エージェントワークフローにおける本番リスク
・コーディング性能がSWE-benchでClaude Opus 4.7に約14ポイント遅れ（約72% vs 約86%）、主要コーディングモデルとしての使用を排除

競合比較

Model	Arena	SWE	GPQA	Price
Claude Opus 4.7	~1500	~86%	~92%	~$15/$75
GPT-5.5 (xhigh)	~1510	~83%	~93%	$5/$30
Gemini 3.1 Pro Preview	~1480	~76%	~91%	~$1.25/$5.00

概要

Grok 4.3（2026年4月30日ローンチ）は、xAIの最もコスト効率の高いフロンティアモデルであり、人工分析インテリジェンス指数で53ポイントを獲得しつつ、競合他社を大幅に下回る価格を実現しました。このモデルは、意図的な戦略的ピボットを表しています：生のインテリジェンスリーダーシップを追う（GPT-5.5は60、Claude Opus 4.7は約62〜67）のではなく、xAIは価格対性能フロンティアを最適化しました。前任のGrok 4.20と比較して、入力コストは37.5%、出力コストは58.3%低下しましたが、インテリジェンススコアは実際には向上しています。主要指標はGDPval-AA（実世界のエージェントタスクベンチマーク）で、Grok 4.3は321 ELOポイント跳ね上がって1500に到達し、Gemini 3.1 Pro、GPT-5.4 mini、Kimi K2.5を超えました。ただし、GPT-5.5 (xhigh) にはまだ276 ELOポイント差で遅れをとっています。機能面では、Grok 4.3は本番環境に関連するいくつかの能力を導入しています：ネイティブ動画入力（商用動画理解APIにおけるGeminiの独占を打破）、組み込みドキュメント生成（会話から直接PDF、PowerPoint、スプレッドシートを生成）、および常時オンのチェーンオブソート推論。このモデルは約100トークン/秒で動作し、1Mトークンのコンテキストウィンドウを備えています（Grok 4.20の2Mからは減少ですが、旧モデルは最大コンテキストワークロード向けに引き続き利用可能です）。$0.20/Mトークンのプロンプトキャッシュにより、RAGや繰り返しコンテキストアプリケーションのコストをさらに削減します。xAIはまた、クリエイティブ制作ワークフロー向けのGrok Imagine Agent Modeをローンチし、自律デスクトップエージェントであるGrok Computerとの連携を強化しました。ただし、Grok 4.3は顕著なギャップを伴って登場しました。永続メモリは$300/月のSuperGrok Heavyプランを含むどのティアにも存在しません。Andon Labsによる独立テストでは、持続的な自律タスクでの「ナルコレプシー」リグレッションが明らかになり、モデルが必要なアクションを取らずに待機することがあります。コーディング性能はClaude Opus 4.7に大きく遅れ（SWE-benchで約14ポイント差）、AA-Omniscience非幻覚率はGrok 4.20と比べて実際には8ポイント低下し、信頼性と高い精度スコアのトレードオフが生じています。このモデルは、汎用フロンティアリーダーとしてではなく、専門家として理解するのが最善です：絶対的な最高能力よりもインテリジェンス/ドルが重要な、長コンテキストのエージェントワークフロー、カスタマーサポート自動化、ドキュメント重視の分析パイプライン向けの最もコスト効率の高いオプションです。

ベンチマーク＆性能

## 包括的ベンチマーク性能 Grok 4.3のベンチマークプロファイルは、エージェントおよび指示追従タスクに優れ、生のインテリジェンスとコーディングではフロンティアリーダーに遅れをとるモデルを示しています。 | ベンチマーク | Grok 4.3 | Grok 4.20 | Claude Opus 4.7 | GPT-5.5 (xhigh) | |---|---|---|---|---| | AAインテリジェンス指数 | 53 | 49 | ~62–67 | 60 | | GDPval-AA (エージェントELO) | 1,500 | 1,179 | 未公開 | ~1,620 | | τ²-Bench Telecom | 98% | 93% | ~86% | ~90% | | IFBench (指示追従) | 81% | 81% | ~79% | ~82% | | GPQA Diamond | 90.1% | ~88% | ~92% | ~93% | | Humanity's Last Exam | 35.0% | ~30% | ~40% | ~42% | | SciCode | 47.3% | ~42% | ~55% | ~53% | | SWE-bench Verified | ~72% | ~70% | ~86% | ~83% | | AA-Omniscience精度 | 4.20比+8 pts | ベースライン | 未公開 | 未公開 | | AA-Omniscience非幻覚 | 4.20比-8 pts | 78% (記録) | 未公開 | 未公開 | **アリーナELO内訳 (BenchLM):** - テキスト総合: 1451 (±6.5, 9,082票) - コーディング: 1493 (±12.0, 2,471票) - 数学: 1434 (±25.8, 501票) - 指示追従: 1428 (±10.9, 2,958票) - クリエイティブライティング: 1440 (±15.7, 1,460票) - マルチターン: 1463 (±14.9, 1,618票) - ハードプロンプト: 1463 (±8.1, 5,661票) - ハードプロンプト (英語): 1461 (±10.9, 2,992票) - 長いクエリ: 1452 (±10.3, 3,434票) **ランタイム指標:** - 出力速度: ~94–115 tok/s (プロバイダー/負荷により異なる) - 最初のトークンまでの時間: 6.5–7.1秒 (API); 一部レビューでは負荷下で最大25.5秒と報告 - 最大出力: 1,000,000トークン - 冗長性: ベンチマークスイートでGrok 4.20より約44%多い出力トークン **主要な結論:** モデルの際立った指標はGDPval-AA（1500 ELO、前任機比+321）とτ²-Bench Telecom（98%）で、エージェントおよび構造化タスクシナリオでの真の改善を確認しています。フロンティアリーダーとのインテリジェンス指数の差は7〜14ポイントですが、フルベンチマークスイートの実行コストは$395対フロンティア競合の$3,959〜$4,811であり、コストパフォーマンス比はクラス最高です。

詳細比較

## 直接比較 ### Grok 4.3 vs Claude Opus 4.7 Claude Opus 4.7は生のインテリジェンスとコーディングのリーダーであり続けています。AAインテリジェンス指数でGrok 4.3の53に対して約62〜67を獲得し、SWE-benchでは支配的です（約86% vs 約72%）。ただし、Claudeのコストは入力トークンあたり約$15で、Grok 4.3の約12倍です。コンテキストウィンドウは同様に1Mトークンです。Claudeはプロジェクトによる永続メモリを提供します。Grokにはありません。コーディングエージェント、長時間の推論、最大精度が必要なタスクではClaudeが勝利します。コストに敏感なエージェントパイプライン、ドキュメント分析、大規模カスタマーサポートでは、Grok 4.3がより良い経済的選択です。Claude Opus 4.7の推論速度はより遅いです（約50 tok/s vs Grok 4.3の約100 tok/s）が、最初のトークンまでの時間は短いです。 ### Grok 4.3 vs GPT-5.5 (xhigh) GPT-5.5はAAインテリジェンス指数で60（vs 53）を獲得し、GDPval-AAで約276 ELOの優位性を持っています。推論、コーディング、知識タスク全般でより広く有能力です。ただし、GPT-5.5のコストは入力あたり約$5、出力あたり約$30で、それぞれ約4倍、12倍高価です。Grok 4.3の本番検証済みエージェントデプロイメント（Starlinkボイスエージェント：70%自律解決、20%販売コンバージョン、28ツール）は、ベンチマークだけでは捉えられない実世界の実行可能性を示しています。GPT-5.5は約80 tok/sで約3秒のTTFTで動作し、対話型アプリケーションにより適しています。絶対的なインテリジェンスが重要で予算が二次的な場合はGPT-5.5を、タスクあたりコストが主な制約の場合はGrok 4.3を選択してください。 ### Grok 4.3 vs Gemini 3.1 Pro Preview Gemini 3.1 Proは、ネイティブGoogle Workspace統合、優れた動画理解、積極的な価格設定（入力あたり約$1.25）を備えた、最も強力なマルチモーダル競合です。AAインテリジェンス指数では、両者は近いです（Grok 4.3: 53、Gemini 3.1 Pro: 約52）。Geminiはより深いエコシステム統合（Sheets、Docs、Slidesの直接連携）を持っています。Grok 4.3はリアルタイムXデータアクセスとドキュメント生成出力で勝ります。Googleスタックの企業にとっては、Geminiが自然な選択です。ライブソーシャルデータ分析やxAIエコシステムツールが必要なチームには、Grok 4.3に構造的優位性があります。

コミュニティ評価

Grok 4.3へのコミュニティ反応は、ユースケースに沿って明確に分かれています。エージェントシステムや長コンテキストパイプラインを構築する開発者は概ね前向きで、VentureBeatはこのモデルがインテリジェンスとコストのパレートフロンティアに快適に位置していると指摘しています。28のツールと20%の販売コンバージョンを備えたStarlinkボイスエージェントのデプロイメント（70%自律解決）は、xAIモデルとして最も強力な本番検証として引用されています。ただし、このモデルは複数の点で批判を受けています。AI小売自動化会社のAndon Labsは、Vending-Bench 2での「大きなリグレッション」を説明し、モデルを「アクションを取る代わりに何日も眠り続けるナルコレプシーの問題がある」と特徴づけました。これはエージェントAIの界隈で広く議論された失敗モードとなっています。Redditでは、カジュアルユーザーはGrok 4.20との差異が最小限であると報告しています：1つのコメントは「4.20とあまり変わらない。ドキュメント生成と動画理解が向上。それ以外は違いなし」と指摘しました。 $300/月のSuperGrok Heavyティアでの永続メモリの欠如は、繰り返し指摘される不満点です。NivaaLabsはそれを「擁護するのが本当に難しい」と呼び、複数のレビュアーはそれをフロンティアモデル市場で最も顕著な製品ギャップとして指摘しました。xAIの共同創業者の離脱（オリジナル11名の共同創業者全員が退任）も、制度的継続性について疑問を投げかけていますが、Grok 4.3の改善は開発パイプラインがまだ機能していることを示唆しています。 Val's AIランキングは、Grok 4.3をCaseLawとCorpFinベンチマークで1位に位置づけ、法律と金融の垂直市場での強い採用シグナルを示唆しました。モデルのネイティブ動画入力とドキュメント生成機能は、複数ツールパイプライン統合を評価するエンタープライズユーザーから称賛されています。開発者間の一般的なコンセンサスは：GPT-5.5やClaude Opus 4.7に沿った強力な「第2のモデル」、コスト最適化されたエージェントワークロードに優れているが、生の能力ではフロンティアリーダーの代替にはまだ至っていない、というものです。

ユースケース

## 推奨ユースケース ### 1. 高ボリュームの法的・金融ドキュメント分析毎月何千もの契約書を処理する法的テクノロジー企業は、Grok 4.3の1Mコンテキストウィンドウを活用し、単一のAPI呼び出しで契約書全体をインジェストできます。Claude Opus 4.7の約$15/Mに対し$1.25/M入力トークンで、コストは約12倍低下します。$0.20/Mトークンのプロンプトキャッシュにより、繰り返し使用されるシステムプロンプトのコストもさらに削減されます。モデルの強力なCaseLawとCorpFinベンチマークランキング（Val's AI: 両方で1位）と改善された指示追従（IFBench: 81%）により、非構造化法的文書から構造化データを抽出するのに適しています。**Grok 4.3を代替案より選択する条件:** ボリュームが高く、予算が制約されており、タスクが複雑な法的推論ではなく抽出/要約である場合。 ### 2. 大規模カスタマーサポートボイスエージェント Grok 4.3のτ²-Bench Telecomでの98%スコアと、Starlinkボイスエージェントによる本番検証（70%自律解決、20%販売コンバージョン、28ツール）は、コスト最適化されたエージェントカスタマーサポート向けの最も強力なオプションを作ります。このモデルは、大多数のインタラクションで人間の介入なしに、ハードウェアトラブルシューティング、サービスクレ딧、交換ワークフロー、エスカレーションを処理できます。**Grok 4.3を代替案より選択する条件:** 解決あたりコストが重要で、リアルタイムのX/ソーシャルセンチメントデータが応答を強化できる、大規模カスタマーサポートエージェントをデプロイする場合。 ### 3. 動画入力を備えたマルチモーダル研究パイプライン Grok 4.3は、（Geminiと並ぶ）商用級ネイティブ動画理解を提供する2つのモデルの1つです。講義録画を処理する教育プラットフォーム、ダッシュカム分析を実行する自動車会社、記録された会議から要約を生成するメディアチームにとって、Grok 4.3は単一のAPI呼び出しで動画入力とドキュメント生成（PDF、PPTX、XLSX）を組み合わせます。**Grok 4.3を代替案より選択する条件:** 構造化ドキュメント出力とともに動画分析が必要で、GeminiのGoogle Workspace統合が不要な場合。 ### 4. 大規模で安定したコンテキストを持つコスト敏感RAGシステム大規模で再利用可能なシステムプロンプト（100K+トークン）を備えたナレッジベースRAGシステムを構築する開発者にとって、Grok 4.3の$0.20/Mトークンのプロンプトキャッシュは、ベース入力料金と比較して最大90%の割引を表します。100Kトークンのシステムプロンプトに対して1日10,000クエリでは、GPT-5.5やClaude Opus 4.7と比較したコスト差は重要です。**Grok 4.3を代替案より選択する条件:** ワークロードが検索重視で、コンテキストがクエリ間で大部分が安定しており、最大の絶対インテリジェンスが求められない場合。

最新ニュース

## 最近の開発（2026年5月時点） - **2026年4月17日:** 何の告知もなくGrok 4.3ベータがローンチされ、SuperGrok Heavy加入者（月額$300）のみが利用可能。パラメータ数について最初は混乱がありました。のちにElon Muskは、ベータが0.5Tパラメータ版で動作し、1T版はまだトレーニング中であることを明らかにしました。 - **2026年4月30日:** フルAPI展開が完了。モデルID: `grok-4.3`。価格：入力$1.25/M、出力$2.50/M、キャッシュ$0.20/M。ツール呼び出し手数料が導入：ウェブ/コード実行呼び出し1,000回あたり$5.00、ファイル添付呼び出し1,000回あたり$10.00。安全フィルターでブロックされたリクエスト1回あたり$0.05という新しい手数料も導入され、これは業界初です。 - **2026年5月2日:** Grok Imagine Agent Modeがベータでローンチ。Grok webインターフェースを介したマルチステップのクリエイティブ制作ワークフロー（1分間の動画、漫画セット、製品ストーリー）が可能に。 - **2026年5月6日:** Grok 4.3がllm-stats.comやベンチマーク追跡サイトに掲載。人工分析は、$395のベンチマーク実行コストでのモデルのパレートフロンティアの位置付けを確認。 - **Grok 4.20との価格低下:** 入力トークンは37.5%減少（$2.00 → $1.25）、出力トークンは58.3%減少（約$6.00 → $2.50）。キャッシュトークン：$0.20/M。 - **Grok 4.20の廃止予定:** grok-4-0709などいくつかの旧モデルが2026年5月15日に廃止予定。Grok 4.20自体は引き続き利用可能で、2Mトークンコンテキストウィンドウの優位性を維持。 - **xAI企業変更:** SpaceXが2026年2月に全株式取引でxAIを買収。オリジナル11名のxAI共同創業者全員が退任。xAIは現在、1.5ギガワットの計算能力を備えたColossus 2を運営し、Grok 5（6Tおよび10Tパラメータバリアントを目標）を含む7つのモデルをトレーニング中。 - **今後の予定:** Grok 4.3の1Tパラメータ版は数週間以内にトレーニング完了見込み。「スキル」機能（タスク自動化のための再利用可能な指示）がiOSテストで発見されたが、まだ公開されていない。Grok Computer自律デスクトップエージェントはプライベートベータ中。

機能面では、Grok 4.3は本番環境に関連するいくつかの能力を導入しています：ネイティブ動画入力（商用動画理解APIにおけるGeminiの独占を打破）、組み込みドキュメント生成（会話から直接PDF、PowerPoint、スプレッドシートを生成）、および常時オンのチェーンオブソート推論。このモデルは約100トークン/秒で動作し、1Mトークンのコンテキストウィンドウを備えています（Grok 4.20の2Mからは減少ですが、旧モデルは最大コンテキストワークロード向けに引き続き利用可能です）。$0.20/Mトークンのプロンプトキャッシュにより、RAGや繰り返しコンテキストアプリケーションのコストをさらに削減します。xAIはまた、クリエイティブ制作ワークフロー向けのGrok Imagine Agent Modeをローンチし、自律デスクトップエージェントであるGrok Computerとの連携を強化しました。

ただし、Grok 4.3は顕著なギャップを伴って登場しました。永続メモリは$300/月のSuperGrok Heavyプランを含むどのティアにも存在しません。Andon Labsによる独立テストでは、持続的な自律タスクでの「ナルコレプシー」リグレッションが明らかになり、モデルが必要なアクションを取らずに待機することがあります。コーディング性能はClaude Opus 4.7に大きく遅れ（SWE-benchで約14ポイント差）、AA-Omniscience非幻覚率はGrok 4.20と比べて実際には8ポイント低下し、信頼性と高い精度スコアのトレードオフが生じています。このモデルは、汎用フロンティアリーダーとしてではなく、専門家として理解するのが最善です：絶対的な最高能力よりもインテリジェンス/ドルが重要な、長コンテキストのエージェントワークフロー、カスタマーサポート自動化、ドキュメント重視の分析パイプライン向けの最もコスト効率の高いオプションです。

出典

分析生成日: 2026-05-23