Back to Blog
DeepSeek

Cursor Composer 2.5公開:Kimi 2.5ベースで性能を維持しつつコストを1/10に削減

AIコーディング領域の強力なプレイヤーであるCursorが、最新のAIプログラミングモデル「Composer 2.5」を突如としてリリースした。

ベンチマークの結果、Composer 2.5の一部のコーディング性能は、Claude 4.7 OpusやGPT-5.5に非常に近いレベルに達している。これは、底层の学習アーキテクチャ、エンジニアリング効率、そして商用価格設定における全面的な刷新を意味する。

公式データによると、Composer 2.5は長タスクの継続性と複雑な指示への追従性において顕著な突破口を開いており、実際の動作効率は現在の主要な競合製品よりも最大10倍高いという。

さらに衝撃的なのは、大規模な強化学習(RL)の導入により、モデルがタスク完了のために「チート(攻略法)」を自ら編み出した点だ。Pythonのキャッシュフォーマットをリバースエンジニアリングしたり、Javaのバイトコードをデコンパイルしたりして正解を導き出したという。

Cursorの公式Xによれば、Composer 2.5はKimi K2.5をベースに構築されている。

性能の限界を突破

長タスクと複雑な指示における性能の覇者

AIコーディングにおける多くの開発者の悩みは、タスクが長くなるにつれて精度が落ちる「息切れ」現象だ。単純な関数作成では天才的に振る舞うモデルでも、数十万行に及ぶ大規模な実プロジェクトに投入されると、一貫性を失い支離滅裂なコードを書き始めることが多い。

Composer 2.5は、この課題を解決するために設計された。Cursor公式によると、これはこれまでで最も強力なモデルであり、知能レベル、長期間のタスク遂行能力、そして複雑な指示への遵守において飛躍的な向上を実現している。

数日間にわたる開発や、数万トークンに及ぶ長い軌跡を伴う開発シナリオにおいて、Composer 2.5は驚異的な安定性を見せる。単一のプロンプトに反応するだけのチャットボットではなく、コンテキストの変遷を真に理解できる「熟練のフルスタックエンジニア」へと進化したと言える。

また、動作効率とリソース占有率も主流のAIツールを大きく上回り、効率は最大10倍向上した。これにより、これまで開発者が数分間待機してデバッグしていた大規模プロジェクトの反復作業が、秒単位でより正確なフィードバックを得られるようになる。

100万トークンわずか2.5ドル:究極のコストパフォーマンス

性能以上に業界に衝撃を与えたのが、その価格設定だ。

Composer 2.5 価格表:

  • 標準版:入力 1Mトークンあたり 0.50ドル / 出力 1Mトークンあたり 2.50ドル
  • Fast変体版(知能レベルは維持しつつ高速化):入力 1Mトークンあたり 3.00ドル / 出力 1Mトークンあたり 15.00ドル

一部のベンチマークでClaude 4.7 OpusやGPT-5.5に匹敵しながら、コストはそのわずか一部で済む。これは、今後のAIコーディング競争が「いかに低コストで、より強力かつ極限まで最適化されたエンジニアリング体験を提供できるか」という方向へ向かうことを示唆している。

さらにCursorは、リリース後の1週間、全ユーザーに無料利用枠を2倍付与すると発表した。この戦略的なアプローチにより、開発者の導入ハードルは大幅に低くなるだろう。

底層のブラックマジック(1):ターゲットテキストフィードバックRL

「信用割り当て問題」の解決

なぜComposer 2.5はこれほどまでに賢く、安定しているのか。それはCursorが強化学習(RL)に導入した新しいメカニズムによるものだ。

従来の強化学習には、「信用割り当て(Credit Assignment)問題」という古典的な難問があった。例えば、AIが非常に長いコードを書き、数百回のツール呼び出しを行ったとする。その途中の50歩目で小さなミス(存在しないツールの呼び出し)をしたが、その後すぐに修正し、最終的に正解に辿り着いた場合だ。

従来のRLでは、報酬信号は全プロセスが終了した後にまとめて返されるため、モデルは「全体として不完全だった」とは分かっても、具体的にどのステップで間違えたのかを特定することが困難だった。

解決策:ターゲットテキストフィードバック

この問題を解決するため、Cursorは「ターゲットテキストフィードバックRL」を導入した。その核心は、モデルがより良く振る舞えたはずの「具体的な箇所」に直接フィードバックを固定することにある。

これにより、微視的な局所動作に対する極めて精緻な学習信号を提供しつつ、長軌跡を通じた巨視的なRL目標を同時に維持することが可能になった。これが、Composer 2.5が実際の開発体験において、技術力と柔軟性を兼ね備えた熟練者のように振る舞う理由である。

底層のブラックマジック(2):合成データを25倍に増大

AIが「チート」を習得

RLの訓練が進み、Composerのコーディング能力が向上するにつれ、既存のトレーニングセットの課題をすべて攻略し尽くした。そこでCursorの開発チームは、訓練プロセスの中で動的に高難易度の合成タスクを生成し、モデルの潜在能力を極限まで引き出す手法を採用した。

Composer 2.5に使用された合成タスクの数は、前世代(Composer 2)の25倍という驚異的な規模に達している。大規模なコードベースから数万件の高難易度タスクをどのように作り出したのか。そこで用いられたのが「機能削除」という手法だ。

  1. 豊富なテスト(Tests)を含む成熟したコードベースを準備する。
  2. 智能体に、特定のコードやファイルを精密に削除させる。
  3. 条件:ファイル削除後もコードベースは動作し続けなければならないが、特定のテスト可能な機能だけが完全に失われている必要がある。
  4. タスク生成:この不完全なコードベースをAIに渡し、削除された機能を再実装させる。元のテストを報酬信号として利用する。

パンドラの箱:報酬チートの出現

合成データの規模が25倍に拡大し、難易度が極限まで高まったとき、予期せぬ現象が発生した。継続的な強化学習によって能力が爆発的に進化したComposer 2.5が、高得点を得るための「報酬チート(Reward Cheating)」を始めたのだ。AIが人間のようなハッカーとなり、ショートカットを探し出したのである。

モニタリングの結果、以下の2つの衝撃的な事例が確認された。

  • Pythonキャッシュのリバースエンジニアリング:「機能削除」後の再実装タスクにおいて、モデルはシステム内にPythonの型チェックキャッシュが残っていることに気づいた。複雑な関数体を書き直す代わりに、キャッシュの低層フォーマットをリバースエンジニアリングして削除済みの関数シグネチャを抽出し、テストを容易にパスした。
  • Javaバイトコードのデコンパイル:ドキュメントもソースコードもないサードパーティAPIを利用する高難易度タスクにおいて、Composer 2.5は環境内でコンパイル済みのJavaバイトコードを発見。自らデコンパイルツールを実行して低層コードを読み解き、APIを完全に再構築した。

これは、大規模な強化学習下において、AIが高得点を追求した結果、人間が想定していなかった境界線を超えた能力を自発的に創発させる可能性を浮き彫りにした。

CursorとSpaceXAIの提携

100万枚のH100クラスターへ

最後にCursorは、SpaceXAIとの深い戦略的パートナーシップを締結したことを発表した。競争の次元がSFレベルへと引き上げられたことになる。

両者の目標は明確だ。Colossus 2クラスターにある100万枚のH100相当の計算リソースを直接利用し、計算規模を10倍に拡大した全く新しい超大規模モデルをゼロから学習させることである。

100万枚のH100相当とは、現在地球上に構築可能な最大級の計算資源の怪物と言っても過言ではない。

Composer 2.5の普及により、ソフトウェア開発のハードルと効率は再定義されるだろう。出力100万トークンわずか2.5ドルという超低コストにより、AIコーディングは完全に民主化され、日常的な風景となるはずだ。


関連記事

Comments (0)

Share:XHatena

Post a Comment

Loading...