100億円の賭け:イーロン・マスクがコーディングエージェントの重要性に気付いた理由
- OpenAIの二大ライバルであるAnthropicとイーロン・マスクは、先月ようやく確執を捨てて提携しました。これまでAnthropicとマスクの関係は良好とは言えませんでした。今年2月、マスクは自身のXアカウントでA社を「目覚めた」「邪悪」「反人類的」と非難していました。

しかし、この攻撃はマスクの気まぐれな性格によるものではなく、Anthropicの特定の行動が彼の神経を逆なでた結果であることがわかりました。それ以前から、xAIはCursorを使用していましたが、年初には従業員が、ClaudeモデルがxAIのCursorアカウントで使用できなくなったことに気づきました。当時xAIに在籍していた共同創業者、呉宇懐は、全社員宛ての手紙で次のように述べています。「Anthropicはポリシーを更新し、Cursorが主要な競合他社にClaudeモデルの呼び出し機能を提供することを禁止しました。」
呉宇懐は手紙の中で、興味深い一文を書いています。
「これは悪い知らせであると同時に良い知らせでもあります。生産性は低下しますが、独自のコーディング製品とモデルを開発するきっかけにもなります。」
なぜ当時のxAIの幹部は、独自のコーディング製品を開発することが重要だと考えたのでしょうか?

その後何が起こったかはご存知の通りです。xAIの共同創業者チームは全員退職し、マスクはCursorに対して資金力を行使しました。
先月、SpaceXとCursorは共同で、プログラミングと知識ベースのAIモデルのトレーニングにおいて、前例のない戦略的連携を開始することを発表しました。さらにSpaceXはCursorの600億ドルでの買収権を獲得し、または後者に100億ドルを協力費として支払うことになりました。
注目すべきは「プログラミング」という重要な限定語です。後で再び言及されます。
- 最近、Cursorの初期投資家でありAnthropicを批判するT3の創業者、Theo Browne氏の動画を視聴しました。A社とSpaceXの行動を軽蔑する動画を見るためにアクセスしたのですが、意外なことに、SpaceX + Cursorの提携に関する、異質でありながら極めて合理的な分析を目にしました。
600億ドルの買収ではなく、100億ドルの協力費だけを考えてみましょう。Theoは動画の中で、「Cursorのユーザーデータに交換できただけでも、100億ドルは十分に価値がある」と述べています。

一体どのようなデータでしょうか?Theoの動画を見た人は理解できると思いますが、ここでは簡単に要約します。
AIとの対話は、質問/要求を提示し、回答を得るという往復です。コーディングエージェントも同様ですが、返ってくるのはコードです。

質の高い対話全体、つまりユーザーのプロンプト、モデルの思考、エージェントの計画、コードの出力、検証——これらすべてを組み合わせると、完全なAgentic Loopとなり、これは高価値なトレーニングデータとなります。これをモデルに与えて強化学習を行うことで、実際のシナリオでのパフォーマンスをさらに向上させることができます。

Cursorが持っているものを、SpaceXが欲しがっているのは、これらのデータです。
しかし、これらのデータはどこから来るのでしょうか?
答えは単純です。モデルベンダーとして、このような高品質なデータの最も直接的なソースは、自社で開発したコーディングエージェント製品——つまり、AnthropicのClaude Code、OpenAIのCodex、KimiのKimi Codeです。
Anthropicに「アカウント停止」された後、呉宇懐が全社員宛ての手紙でxAI独自のコーディング製品とモデルを開発することを提案した理由が、今となっては理解できるでしょう。当時xAIはすでに気づいていました。独自のコーディング製品がなければ、高品質な強化学習データは得られず、高品質なデータがなければ、真に実戦能力の高いコーディングモデルをトレーニングすることはできません。
やや乱暴な主張ですが、今こそ本題に入りましょう。モデルベンダーが実際に使えるプログラミングモデルを作成するには、独自のコーディングエージェント製品を開発することが唯一の道です。
- 大規模言語モデルは水晶球のようなもので、Web全体からのコーパスでトレーニングされています。一見すると、あらゆる質問に答えられるように見えますが、それはすべての質問に対して高品質な回答が得られるという意味ではありません。
GitHub上の数億のコードエントリでトレーニングすれば、コーディングモデルもトレーニングできます。これが「学習結果」の論理であり、問題ありません。コードが実行可能かどうか、テストが通るかどうかなど、結果は明らかです。
しかし、結果に至るプロセスは、複数のステップでの意思決定、エラー修正、意図の整合を含む複雑なチェーンです。ユーザーの受け入れ、拒否、補完、取り消し、再質問、さらにはモデルが何度か失敗したり、完全に間違った場合に浴びせられる罵声——これらすべてがこのチェーン上のプロセス信号です。

強化学習には2つの監督方法があります。1つは結果の監督と呼ばれ、最後に通るかどうかだけを見ます。しかし、結果の監督は「報酬ハッキング」という現象を生み出します。モデルは実行可能であるために、冗長で脆弱で、論理的な欠陥のあるコードを書く可能性がありますが、テストに合格したため、モデルは自分が正しく学んだと思っています。
もう1つはプロセス監督と呼ばれ、推論パスの各ステップにスコアリングします。上記のプロセス信号は、コーディングエージェントの実行環境でのみ生まれます。GitHubリポジトリには結果があるだけです。個別のコミット履歴やPRを見ても、有効なプロセス信号は見つかりません。
効果的で、自律的に取得できるプロセス信号が不足している場合、一部のモデルベンダーは「蒸留」と呼ばれる手法を使用します。これはすでに知られていることだと思います。
蒸留のロジックは単純です。同じ入力に対して、教師モデルが出力するものを学生モデルは学習します。
しかし、蒸留を通じて得られるのは、結果に近く、蒸留された教師モデルの内部確率分布とは異なる思考の鎖です。
学生が推論中に教師の軌跡から逸脱した場合、1つのトークンが一致しないだけでも逸脱が発生する可能性があります。

これには、強化学習の基本的な制限があります。ポリシー勾配定理は、最適化サンプルが、現在最適化されているモデル自身によって生成されるのが最適であることを要求します。このデータはon-policyデータと呼ばれます。他の製品で生成されたデータを自分のモデルをトレーニングするために使用すると、off-policyデータになります。モデルはそこから学ぶことができますが、教師モデルの内部確率分布の情報を学ぶことはできません。
Cursorのような自社でコーディングエージェント製品を持っている企業は、最もリアルで効果的で高品質なトレーニングデータを保持しています。Cursor製品自体が、コーディングモデルにとっての実践的な環境における最高のトレーニング場です。
Cursorの年初の「失敗」を通じて、このロジックを証明することができます。
- APPSOの読者は、CursorがComposer 2をリリースし、「次世代の専用プログラミングモデル」と謳ったことを覚えているかもしれません。技術レポートは控えめで、具体的なモデル基盤の情報は提供されていませんでした。

その直後、開発者コミュニティでKimiのモデルIDが公開されたコードスニペットが広まり、Cursorの副社長Lee Robinson氏が釈明せざるを得なくなりました。「Composer 2はオープンソースの基盤から始まります。最終モデルの約4分の1の計算能力が基盤から来ており、残りの4分の3は自社でトレーニングしたものです。」数時間後、Cursorの共同創業者Aman Sangerも謝罪の言葉を添えました。「Kimi基盤について最初に言わなかったのは誤りでした。」

5日後、Cursorは完全なComposer 2技術レポートを公開し、基盤はKimi K2.5であり、ライセンス供与者はFireworks AIであることが示されました。大まかな流れは、K2.5でトレーニングを行い、大規模な強化学習(RL)を続行することです。
しかし、重要なことは、Composer 2のRLが実際のCursorセッションで実行され、本番環境と完全に同じツールとハーネスを使用することです。Cursorはこのプロセスを「リアルタイム強化学習」(real-time RL)と呼んでおり、モデルのチェックポイントをCursorの生産環境に直接デプロイし、ユーザーの応答を観察し、データを収集して報酬信号を統合します。最速でモデルバージョンを5時間ごとに反復し、Cursorにデプロイして、繰り返します。
最も優れたケースは、Cursorの自動コード補完機能Tabで、毎日4億件を超えるリクエストを処理します。ユーザーが文字を入力したり、カーソルを移動したりするたびに、モデルは次のアクションを予測します。予測の確信度が高い場合は、提案を表示し、ユーザーがTabキーを押すと自動補完を受け入れます。
この機能はオンライン強化学習を採用しており、業界では非常にユニークです。Cursorは非常に高い頻度(最速で30分から2時間ごと)でTabモデルの能力をユーザーに更新し、製品内でon-policyデータを収集してトレーニングできます。
この高頻度でほぼリアルタイムのフィードバックループにより、Tabは非常に微妙なユーザーの意図を学習できます。Cursorは、この方法によりTabからの提案の拒否率が21%低下し、受け入れ率は28%増加したと明らかにしています。
Composerモデル自体に戻ると、問題が明確になった後、一部のKimiの従業員は以前の不満を表明したツイートを削除し、Kimiの公式アカウントは祝福しました。
600億ドルの評価額(マスクが示した数字に基づく)を持ち、独自のモデル基盤を持たないコーディングエージェントアプリケーション企業のデータフローは、依然として成功しています。
したがって、Cursorが失敗したと言うよりも、コーディングエージェント製品の重要性を示す絶好の例であると言えるでしょう。

CursorはリアルタイムRLに関する別の記事の中で次のように書いています。「(プログラミングモデルのトレーニング)最大の難しさはユーザーのモデリングです。Composerの生産環境には、コンピューターを実行するだけでなく、それを監督し導く人もいます。コンピューターをシミュレートするのは簡単ですが、それを使用する人をシミュレートするのは困難です。」
この文は、プログラミングモデルの分野で最先端を行くモデルベンダーの間で徐々に合意されつつあります。ベンチマークのランキングと一般的なユーザー評価を見ると、どの大手ベンダーがユーザーに最も近いかを確認できます。
SWE-bench、LLM-Statsなどの比較的権威のあるランキングの例として、Claude、GPT、Gemini、Kimiなどのモデルは、すべて独自のコーディングエージェント製品(CLI、IDE、コーディングエージェント統合のデスクトップクライアントを含む)を開発しているベンダーによってトップ10を独占しています。
一部のランキングでは、Meta (Muse Spark)、DeepSeekなどの例外が見られますが、独自のコーディングエージェントを開発していません。
しかし、より現実的なシナリオ、汚染を避けるためのより権威あるベンチマークでは、これらの例外的なモデルがトップランキングに入るのが難しいことに気づきます。例えばDeepSeekの場合、SWE-bench bash onlyで70ポイントを獲得し、9位にランクインしていますが、SWE-bench Proでは15%前後のスコアしかありません。
OpenRouterの実際のトラフィックデータは、この違いを説明できます。同プラットフォームの2025年のレポートによると、Claudeのトークン消費量の80%以上がプログラミングと技術タスクに使用されていますが、DeepSeekのトークン消費量の大部分はチャットとロールプレイングに集中しています。
独自のコーディング製品を持たないベンダーは、一部のコーディングタスクのベンチマークでトップにランクインできるかもしれませんが、より困難な実際のエンジニアリングベンチマークでは、ユーザーがトークンを消費する投票の実際のトラフィックでは、その真の姿が明らかになります。
Cursorだけでなく、Anthropicも2025年11月に発表した論文で、同じことを行っていることを明らかにしています。「Anthropic自社の実際の生産プログラミング環境でトレーニングを行っています。」つまり、Anthropicは従業員がClaude Codeを使用するインタラクションデータをClaudeモデルのトレーニングに使用しています。

- AIの進化の過程において、生産要素の定義は大きく変化してきました。
伝統的な3つの主要な要素——計算能力、研究、トレーニングデータは、全体的な量では増加し続けていますが、構造的には深刻な不均衡が生じています。
今日の主要なAI企業は、計算能力への資本支出 (CapEx) を大幅に増加させ、計算能力基盤が現在の世論の主なテーマとなっています。しかし実際には、特にプログラミングの分野では、GitHubリポジトリやStackOverflowなどのインターネット上の公開コードデータが基本モデルベンダーによって「竭沢而漁」的に利用され、モデルがコード生成と論理推論の境界線が徐々に明確になってきています。
これが、業界のコンセンサスが新たに台頭する戦略的ハイグラウンドに徐々にシフトしている理由です。
最高のコード能力をマスターしたいモデルベンダーにとって、独自のコーディングエージェント製品を構築することは、もはやオプションのビジネスルートではなく、基盤モデルが継続的に進化するための核心的なライフラインです。
先ほどAPPSOが論証したように、公開データを学習するだけでは成功者の結果を学ぶだけであり、成功への道筋はわかりません。これは正しい成功学であるべきではありません。実際のプログラミング環境では、何が間違っていたか、どのように間違っていたか、そしてどのように要求を理解し効率的に実践するかを知ること——正しいプロセスの価値を理解することが、正しい結果を得るよりもはるかに重要です。

独自のエンコーディング製品を持つモデルベンダーのみが、高品質な「プロセス監督」信号を取得し、エンコーディング/推論能力の次の段階の競争において、技術的な堀を守ることができます—— さもないと、SpaceXAIのように、コーディングエージェント製品企業にお金を払って協力しなければなりません。しかし、すべてのモデルベンダーがマスクのように裕福であるとは限らず、2026年から始まる巨大企業の勢力圏の分割、提携、領土争いは激化します。自主的なコーディング製品を持たないモデルベンダーがようやく気づいたときには、十分なパートナーを見つけることができず、協力の価格も高騰する可能性があります。
米国モデル企業の状況はよく知られています。APPSOはまた、国内の主要なモデルベンダーとAIの巨大企業は、そのほとんどがコーディングエージェント製品に配置されていることに気づきました。
国内の巨大企業は、主にネイティブAI IDEまたはIDEプラグインの考え方で取り組んでいます。ByteDanceは昨年初めからTRAE、AlibabaのQoder、TencentのCodeBuddy、Baiduの文心快码 Comateなどを配置しました。
AI小規模な企業のなかでは、月之暗面が最も早く独立したコーディングエージェント製品であるCLIインターフェースのKimi Codeを開発しました—— 。

もう1つの実装方法は、モデルベンダーがAPIサービスとコーディングプランを自分で提供することです。この場合、ユーザーがどのようなAI開発環境を使用しているかに関わらず、モデルベンダーはサーバー側のAPI記録を通じて、可能な限りネイティブのコーディング製品に近いプロセスデータを取得できます。
しかし、これは近似に過ぎず、完全には同じではありません。コアは、サーバーサイドAPIのリクエスト-レスポンスログは、製品のインタラクション軌跡と深く統合されているものと比較して、まだ大きな隔たりがあることです。
自社製品を構築するベンダー(Cursor、Claudeデスクトップ、Codexなど)は、最も直接的で明確なフィードバック信号を持ち、API側は比較的あいまいな間接的な推測です。簡単に言えば、API側はユーザーのリクエストとレスポンスを見ることができますが、ユーザーが最終的にこのコードを採用したかどうか、コードが実行可能かどうか、どのようなバグが発生したかについてはAPI側は知りません。彼らはユーザーの最終的な行動という重要なラベルを理解することができず、最高品質の強化学習を実現することができません。
形式として述べると、言語は世界であり、コードは解決策です。コードは世界のほとんどすべてのタスクを表現でき、コードは最大の増幅器となり、トップレベルの人材の生産性を数倍に高めます。
最高のコーディングモデルだけが最高の才能に値します。大手モデルベンダーがコーディングを重視しない場合、トップ層から脱落するでしょう。
もちろん、実際にはすべてのモデルベンダーがコーディングを重視していないわけではありません——むしろ、新しいパラダイムの下では、独自のネイティブコーディングエージェント製品を持たない企業が徐々に製品を持つ企業に遅れをとる可能性が高いということです。
つい最近、MiniMaxもデスクトップクライアント製品の大きなアップデートを発表しました。 は、コーディングタスクのサポートも大幅に改善します。


直後に、5月15日、Alibabaが を正式にリリースしました——この製品はIDEの形から、完全なエージェント製品(アリの公式な呼び方はインテリジェントエージェント開発ワークベンチ)へと正式にアップグレードされました。

同時に、xAIのGrok Build CLIもついに正式にリリースされました。
そうです、xAIが年初にAnthropicとCursorから「アカウント停止」された後、彼らが自ら作ったコーディングエージェントです。

これ以上、すぐに利用できる事例が増えました。
Cursor、Codex、Claudeのデスクトップが正しい道を進んでいると皆が考えているようです。
- コーディングからエージェント自体に話題を広げても、状況は同じです。
公開コーパスでは、コーディングタスクの軌跡データはまだ見つけることができます(たとえば、GitHubのコミット記録/PRですが、品質は高くありません)。しかし、エージェントタスクの軌跡データ(マウスの移動とクリック、タッチスクリーンの操作、入力フィールドへの入力など)は、公開コーパスでは見つけることはできません。
そのため、たとえ高価ではないブラウザプラグインであっても、ほとんどのモデルベンダーが自社で構築しているのを見ることができます。
OpenAIは2025年1月にOperatorをリリースしました。これは「AIによるブラウザの自動操作」と呼ぶことができますが、本質的には大規模なデータ収集装置です。Operatorを試用したすべてのユーザーは、無料でOpenAIにon-policyデータを提供しています。
その後OpenAIはChatGPT Agentと新しいCodexデスクトップクライアントを派生させました。Anthropicも同じように、最近KimiはWebBridgeと呼ばれるプロジェクトをひっそりと開始しました。これはブラウザプラグインです。

過去2年間、ほとんど行動を控えていた中国のモデルの巨大企業である深度求索でさえ、最近エージェントへの関心を示し始めています。CEOの梁文鋒氏は以前のインタビューで次のように述べていました。
数学とコードはAGIの自然な実験場であり、囲碁のようなもので、閉鎖的で検証可能なシステムであり、自己学習を通じて高い知性を達成できる可能性があります。
この言葉の含みは、DeepSeekが常にコーディングとエージェントを研究実験場として扱い、商業化の方向性としては見ていないということです。
しかし、今年3月、DeepSeekは10個以上のアジェント関連の採用を一度に開始し、初めてエージェント(方向性)のモデル戦略製品マネージャーなどのポジションを募集しました。求人内容には、「AnthropicのClaude CodeやManusなどを深く使用する」などの要件が含まれていました。

APPSOは、深度求索が最近、エージェント製品マネージャーやハーネス製品マネージャーなどの職種を募集していることに気づきました。明らかに、深度求索は独立したネイティブのコーディング/エージェント製品を構築したいと考えています。
以前の資料によると、DeepSeek V3.2のトレーニングプロセスでは、約2,000の合成エージェントトレーニング環境と8万件を超える複雑な指示が導入されました。しかし、合成データだけではDeepSeekをここまでしか導けないようです。合成では得られない部分は、実際の環境にいる実際のユーザーの本当の成功と失敗であり、自社のエージェント製品を持つことでのみ得られます。
DeepSeekは非常に抑制された方法で3年間モデルとモデル製品を開発してきました( )。しかし今日、コーディングタスクにおいてSOTAを獲得するのが難しくなっており、以前に獲得してもすぐに追い越されます。
研究に依存するアプローチが持ちこたえられなくなると、DeepSeekは行動を起こしました。
- 最後に、冒頭のストーリーに戻りましょう。
The Informationの情報筋によると、マスクの600億ドルの買収/100億ドルの共同作業の申し出を受け、CursorはxAIとの新しいモデルの開発には協力せず、自社のComposerモデルの最適化に焦点を当てるだろうと語っています。
これは、たとえマスクに買収されたとしても、Cursorはデータのフローの主体性を保持したいと考えていることを意味する可能性があります。
データの帰属こそが、最も重要な隠された駆け引きのポイントです。
すべてのトップモデルベンダーが自社製品を構築し、すべてのトップ製品が自社モデルをトレーニングするようになり、「モデル企業」と「製品企業」の境界線はますます曖昧になってきています……
この駆け引きは始まったばかりです。
文|杜晨
参考資料:
Theo - t3.gg: www.youtube.com/watch?v=3pkz-Ie_k_c Composer 2技術レポート: cursor.com/cn/blog/composer-2-technical-report Anthropic論文:arxiv.org/abs/2511.18397 結果監督vsプロセス監督: www.emergentmind.com/topics/process-vs-outcome-supervision 強化学習の信号エラー: https://openreview.net/pdf?id=TDfrN1TbGH
自建or購入プロセスデータの議論: https://www.reddit.com/r/AI_Agents/comments/1snc116/the_overlooked_trend_of_building_custom_ai_agents/
一部の画像はAIによって生成されました

協力者を探しています ** 📮 履歴書の提出先 ** hr@ifanr.com ** ✉️ メールタイトル ** 「氏名+職種」(履歴書と関連プロジェクト/作品またはリンクを同封してください) 
関連記事
読み込み中...