ブログ一覧に戻る
Anthropic

Claude Opus 4.7レビュー:Anthropic最強のAIモデル、エージェントコーディングを支配するも、非公開コスト増加に批判の声

はじめに:Anthropicの最も大胆なリリース

2026年4月16日、AnthropicはClaude Opus 4.7をリリースしました。これは同社の最も高性能な、一般利用可能なモデルです。わずか2ヶ月の開発サイクルでOpus 4.6の後継となる本リリースは、エージェントコーディング、マルチツールオーケストレーション、視覚推論の分野で大きな飛躍を表しています。新しいMythosアーキテクチャに基づき、Opus 4.7はいくつかの注目すべき機能を導入しました:適応思考(Adaptive Thinking)、新しい「xhigh」エフォートレベル、エージェントループのためのタスクバジェット、そしてモデルが結果を返す前に自身の論理エラーを検出できる自己検証機能です。

しかし、このリリースは論争の的となっています。トークン数を最大35%膨らませる新しいトークナイザー、長コンテキスト検索スコアの崩壊、そして過度に攻撃的なセーフティガードは、開発者、作家、セキュリティ専門家から鋭い批判を浴びました。この包括的なレビューでは、Opus 4.7の優れている点、劣っている点、GPT-5.4やGemini 3.1 Proとの比較、そしてあなた固有のユースケースにとってアップグレードする価値があるかどうかを解説します。

Claude Opus 4.7の新機能

拡張思考から適応思考へ

Anthropicは、開発者がbudget_tokensを通じて可視的な推論予算を割り当て可能にしていた「拡張思考(Extended Thinking)」機能を完全に削除しました。その代わりとして、Opus 4.7はタスクの複雑さに基づいて推論努力を動的に割り当てる「適応思考(Adaptive Thinking)」システムを導入しました。非デフォルト値での従来のtemperaturetop_ptop_kパラメータは400エラーを返すようになり、思考コンテンツはデフォルトではレスポンスから除外されます。開発者は推理の過程を見たい場合、display: "summarized"で明示的にオプトインする必要があります。

この変更は、リリースの中で最も議論を呼んだ側面の一つです。デバッグやプロンプトエンジニアリングワークフローで可視的な思考の連鎖(chain-of-thought)に依存していた開発者は、適応に追われる事態になりました。

新しい「xhigh」エフォートレベル

Opus 4.7は「high」と「max」の間に位置する「xhigh」エフォートティアを導入しました。最も困難な推論ベンチマークであるHumanity's Last Examでは、xhigh(55.4%)がmax(54.7%)を実際に上回り、多くのタスクではxhighを超えると収穫逓減が生じることを示唆しています。Claude Codeは全プランでxhighをデフォルトとし、チームにコストと能力のバランスを取るための実用的なレバーを提供します。

エージェントループのためのタスクバジェット

パブリックベータ版として提供開始されたタスクバジェットにより、開発者は複数ステップのエージェントループにわたるアドバイザリートークン目標を設定できます(1タスクあたり最低20,000トークン、task-budgets-2026-03-13ベータヘッダーで有効化)。これは、トークン消費の暴走が知らず知らずのうちに利益率を破壊しかねない、本番環境のエージェントデプロイメントにとって重要な機能です。

自己検証

本番環境利用において最もインパクトがある可能性のある機能:Opus 4.7は、結果を報告する前に、自身の論理エラー(オフバイワンバグ、競合状態、不正確な前提など)を特定できます。これは単なるベンチマーク上のトリックではありません。初期のエンタープライズ導入企業は、これが直接的にリトライ回数の削減と初回成功率の向上に繋がると報告しています。

Project Glasswingとサイバーセキュリティ対策

Opus 4.7は、Anthropicの新しいProject Glasswingフレームワークの下で出荷される最初のモデルです。これは、トレーニング中にモデルの攻撃的なサイバーセキュリティ能力を意図的に低下させるものです。前例のない動きとして、Anthropicはさらに強力な内部モデル(Claude Mythos Preview)が存在するが、安全対策のテストが完了するまで広範なリリースを差し控えていることを公的に認めました。主要AIラボが安全上の理由でモデルの能力を意図的に削減したと公式に述べるのはこれが初めてです。

ベンチマーク性能:Opus 4.7が優れている分野

Claude Opus 4.7は、Artificial Analysis Intelligence Indexで100点中57点(Opus 4.6の53点から向上)を獲得し、ベンチマークの信頼区間(±1ポイント)内でGPT-5.4(56.8)やGemini 3.1 Pro(57.2)と統計的な三つ巴の首位を形成しています。しかし、この集計スコアは、個々のベンチマークにおける巨大なばらつきを覆い隠しています。

エージェントコーディング:目玉の強み

Opus 4.7における最大の改善は、ソフトウェアエンジニアリングベンチマークにあります:

  • SWE-bench Verified: 87.6%(Opus 4.6の80.8%から向上)
  • SWE-bench Pro: 64.3%(53.4%から向上)— 一般利用可能モデルとしては最高スコアで、+10.9ポイントの改善
  • Terminal-Bench 2.0: 69.4%(65.4%から向上)

最も困難なソフトウェアエンジニアリングベンチマークであるSWE-bench Proで、Opus 4.7はGPT-5.4(57.7%)に6.6ポイント、Gemini 3.1 Pro(54.2%)に10.1ポイントの差をつけています。これが同モデルの明白な競争上の堀です。

マルチツールオーケストレーション

Opus 4.7は、マルチターンツールオーケストレーションのベンチマークであるMCP-Atlasで支配的で、77.3%を獲得。GPT-5.4(68.1%)やGemini 3.1 Pro(73.9%)を大きく引き離しています。GPT-5.4に対するこの9ポイントの差は、複数のAPI呼び出しを連鎖させるエージェントワークフローを構築する者にとって重要です。

エージェント型ナレッジワーク

一般的なエージェント型ナレッジワークを測定するGDPval-AAにおいて、Opus 4.7は1,753 Eloを獲得。次点の競合(Sonnet 4.6とGPT-5.4、いずれも約1,674)に79ポイントもの圧倒的な差をつけています。ここに、Anthropicの「実世界のエージェント」という位置づけが、具体的な数字として表れています。

コンピューター利用とビジョン

Opus 4.7は、画像解像度を3.75メガピクセルへと3倍に引き上げ、CharXiv(チャート推論)で大幅な13ポイントの向上を達成しました:82.1%(Opus 4.6の69.1%から)。OSWorld-Verified(GUI操作)は72.7%から78.0%に改善し、GPT-5.4の75.0%を上回りました。XBOWは、彼らの視覚精度ベンチマークが54.5%から98.5%へと跳ね上がったと報告しました。

推論能力

  • GPQA Diamond: 94.2% — GPT-5.4(94.4%)、Gemini 3.1 Pro(94.3%)と事実上同率
  • Humanity's Last Exam(ツールなし、最大エフォート): 54.7% — 健闘を見せたが、このベンチマークは競合データが限られる
  • 幻覚耐性(AA-Omniscience Index): スコア26(Opus 4.6の14から向上)、幻覚率は61%から36%に低下

トークン効率

Artificial Analysis Intelligence Indexで4ポイント高いスコアを獲得したにもかかわらず、Opus 4.7はOpus 4.6と比較して約35%少ない出力トークンを使用しました。自己検証や適応思考機能が、より簡潔で正確な出力を生み出しているようです。

重要なリグレッション:Opus 4.7が劣っている分野

長コンテキスト検索の崩壊

最も警戒すべきリグレッション:MRCR v2 8-needle検索(100万トークン)が78.3%から32.2%へと激落しました — 46ポイントもの壊滅的な崩壊です。256Kトークンにおいても、91.9%から59.2%へ低下しています。AnthropicはMRCRをベンチマークから段階的に廃止する意向を示唆しましたが、実際的な影響は明確です:非常に長い文書から特定の事実を正確に検索する必要があるワークフローでは、Opus 4.6の方が依然として安全な選択肢です。

ウェブ調査

BrowseCompが83.7%から79.3%に低下し、Opus 4.7はGPT-5.4(89.3%)に10ポイント、Gemini 3.1 Pro(85.9%)に6.6ポイント差をつけられています。エージェント型ブラウジングやウェブ調査タスクにおいて、Opus 4.7は利用可能な最良のモデルではありません。

ターミナル重視のコーディング

SWE-benchスコアは卓越していますが、Terminal-Bench 2.0ではOpus 4.7が69.4%で、GPT-5.4の75.1%に及んでいません。ターミナル重視の環境で作業する開発者にとって、これは有意な差です。

直接比較

Claude Opus 4.7 vs. GPT-5.4

両モデルは100万トークンのコンテキストウィンドウと128Kの最大出力を共有します。主な違い:

  • 価格: Opus 4.7は入力100万トークンあたり5ドル、出力25ドル — ちょうどGPT-5.4(入力2.50ドル、出力15ドル)の2倍、および1.67倍の価格です。
  • エージェントコーディング: Opus 4.7が圧倒的に有利(SWE-bench Pro: 64.3% vs. 57.7%)
  • ツールオーケストレーション: Opus 4.7がMCP-Atlasで9.2ポイントリード(77.3% vs. 68.1%)
  • コンピューター利用: Opus 4.7がリード(OSWorld: 78.0% vs. 75.0%)
  • ターミナルコーディング: GPT-5.4が有利(75.1% vs. 69.4%)
  • ウェブ調査: GPT-5.4が支配的(89.3% vs. 79.3%)
  • 純粋な推論: 事実上同率(GPQA Diamond: 94.2% vs. 94.4%)

結論: ワークフローが自律的なマルチファイルコーディングや複雑なツールチェーンに関わる場合はOpus 4.7を選択してください。ウェブ調査、ターミナル重視の作業、またはエージェント能力よりもコストが重要な場合はGPT-5.4を選択してください。

Claude Opus 4.7 vs. Gemini 3.1 Pro

Gemini 3.1 Proは、入力価格が2.5倍安い(100万トークンあたり2ドル)、出力価格が2倍安い(100万トークンあたり12ドル)同じ100万コンテキストウィンドウを提供します。Artificial Analysis Intelligence Indexでは、両方とも57点 — 統計的な同率です。

  • エージェントコーディング: Opus 4.7が圧倒的(SWE-bench Pro: 64.3% vs. 54.2%)
  • ツールオーケストレーション: Opus 4.7がリード(MCP-Atlas: 77.3% vs. 73.9%)
  • 幻覚耐性: Geminiが有利(AA-Omniscience: 33 vs. 26)
  • ウェブ調査: Geminiがリード(85.9% vs. 79.3%)
  • 推論: 事実上同率(GPQA Diamond: 94.2% vs. 94.3%)

結論: トップクラスのエージェントコーディングを必要としないコスト感度の高いワークロードには、Gemini 3.1 Proが劇的に優れた価値を提供します。Opus 4.7は、エージェントの精度がビジネス成果に直接影響する場合にのみ、プレミアム価格に見合う価値があります。

Claude Opus 4.7 vs. Claude Opus 4.6

価格は同一(入力5ドル、出力25ドル)、コンテキストウィンドウも最大出力も同一です。しかし、新しいトークナイザーはトークン数を1.0~1.35倍に膨らませ、レート変更なしに最大35%の実質的なコスト増加を生み出します。コミュニティテストでは、平均的な英語テキストで12~18%の膨らみが見られ、最悪のケース(コードコメント、URL、特殊文字)では完全な35%の天井に達しています。

Opus 4.6はclaude-opus-4-6を通じて完全に利用可能で、廃止の発表はありません(Google Vertex AIのドキュメントでは、2027年2月5日より早く廃止されないと記載)。ワークフローが長コンテキスト検索に依存しているか、拡張思考に基づいてプロンプトを最適化している場合、Opus 4.6に留まるのが現実的な選択肢かもしれません。

実世界のエンタープライズ成果

初期導入パートナーのエンタープライズ顧客は、革新的な改善を報告しました:

  • Cursor: 内部ベンチマークが58%から70%へ跳ね上がり、「容易なアップグレード決定」と評価
  • Box: 同一の本番ワークフローで、モデル呼び出しが56%減少、ツール呼び出しが50%減少
  • Rakuten: 本番タスク解決能力が3倍に
  • Notion: 複雑なマルチステップワークフローで14%の改善、ツールエラーが3分の1に
  • Harvey(法律AI): 高エフォートでBigLaw Bench 90.9%
  • Hex: 「低エフォートのOpus 4.7は、中エフォートのOpus 4.6と概ね同等」
  • Vercel: 「ワンショットコーディングタスクに卓越している」と称賛
  • KPMG: Digital GatewayプラットフォームにClaudeを統合し、全従業員276,000人以上に展開する戦略的グローバル同盟を発表

コミュニティの反応:鋭い分極化

リリースは、ユースケースの線に沿って鋭く分かれました。

良い点

主要なコーディングツール(Cursor、Replit、GitHub Copilot、Vercel、Bolt)は即座にOpus 4.7に切り替えました。エンタープライズパートナーはリリースと同時に導入しました。自己検証と改善されたエージェント能力は、本番ワークフローにとって真のブレークスルーです。

悪い点

個人開発者やクリエイティブユーザーは強く反発しました。「Claude Opus 4.7はアップグレードではなく深刻なリグレッションだ」というRedditの投稿は、24時間以内に2,300以上の賛票を集めました。Hacker Newsのトップコメント(1,200以上の賛票)は、適応思考がデフォルトで可視的な推論過程を削除したことを指摘しました。

トークナイザー論争が、リリースの中で最も議論された側面となりました。コミュニティのコンセンサスは、新しいトークナイザーが、目立つ場所ではなくドキュメントの中に埋もれた形で、20~35%の隠れた価格上昇を構成している、というものに急速にまとまりました。記録された一例では、同一の内容が4,262トークンから5,657トークンに増加 — 33%の増加です。ユーザーは、レート制限やプラン上限に劇的に速く達するようになりました。

セキュリティ専門家は特にフラストレーションを感じました。Anthropicのサイバー検証プログラムに基づく承認アクセスを持つJoseph Thackerは、「opus 4.7は、サイバー利用が承認されているとしても、すべてのバグハンター/テスターにとってブロッキングだ」と報告しました。Project Glasswingの安全対策が正当なセキュリティリサーチを捉えており、Anthropicはリリース時にこの問題を公的に認めませんでした。

作家やクリエイティブユーザーは、品質の顕著なリグレッションを報告しました。モデルが「明らかにエンタープライズ向け」と感じられ、温かみが効率性に置き換えられ、繊細なクリエイティブな幅よりも直接的で偏見のある出力を優先するという、一貫した不満がありました。

APIの変更と移行に関する考慮事項

即座に対応が必要な3つの破壊的API変更があります:

  1. 拡張思考の削除: budget_tokensパラメータは400エラーを返します。適応推論が唯一のモードです。
  2. サンプリングパラメータの制限: 非デフォルト値でのtemperaturetop_ptop_kは400エラーを返します。
  3. 思考コンテンツのデフォルト非表示: 呼び出し元は推理の過程を見るためにdisplay: "summarized"でオプトインする必要があります。

既存のOpus 4.6プロンプトスタックを持つチームには、移行前の並行評価を強くお勧めします。モデルの行動シフト(より直接的なトーン、異なるトークナイゼーション、削除されたパラメータ)は、Opus 4.6向けに最適化されたプロンプトが綺麗に移行できないかもしれないことを意味します。

Claude Opus 4.7の最適ユースケース

  1. 本番エージェントコーディングとCI/CD自動化 — 複雑なマルチファイルエンジニアリングタスクを委任するための最も強力な一般利用可能モデル。自己検証がエラーが伝播する前に検出します。

  2. マルチツールオーケストレーション — 77.3%のMCP-Atlasスコアは、5つ以上のツール呼び出しを連鎖させるワークフローにおいて明確なリーダーにしています。

  3. コンピューター利用エージェントとビジョン重視のワークフロー — 高解像度画像処理とチャート/UI推論の劇的な改善により、自動テスト、ドキュメントOCR、デザインレビューに最適です。

  4. エンタープライズドキュメント分析と金融ワークフロー — Finance Agent v1.1でのトップスコアと強力な幻覚軽減により、法律、金融、コンプライアンス重視のナレッジワークに最適な選択肢です。

代替案を選択すべき場合

  • Opus 4.6を使用する あなたのワークフローが正確な長コンテキスト検索(256Kトークン以上)に依存しているか、拡張思考の周辺にインフラを構築している場合。
  • GPT-5.4を使用する ウェブ調査、ターミナル重視のコーディング、またはコスト効率が最重要の場合。
  • Gemini 3.1 Proを使用する 幻覚耐性や科学的推論がエージェントコーディングの力量よりも重要な、コスト感度の高いワークロード用。

結論

Claude Opus 4.7は、エージェントAIにおけるAnthropicのリーダーシップを確固たるものにする、真に印象的なモデルです。ソフトウェアエンジニアリング(SWE-bench Proで+10.9ポイント)、ツールオーケストレーション(MCP-AtlasでGPT-5.4に+9.2ポイント)、および一般的なエージェント型ナレッジワーク(GDPval-AAで1,753 Elo)における改善は、実在し、測定可能で、本番デプロイメントにとって革新的です。

しかし、このリリースはまた、Anthropicの戦略における成長する緊張も明らかにしています。隠れたトークナイザーコストの増加、崩壊する長コンテキスト検索スコア、過度に攻撃的なセーフティガード、そして可視的な推論過程などの開発者向けコントロールの削除は、個人開発者コミュニティを犠牲にしてエンタープライズ契約のためにますます最適化していく企業の姿を示唆しています。より強力なモデルが存在するが、テストされている間は差し控えていると明確に認めることは、競合他社が利用する戦略的複雑性を追加します。

本番エージェントシステムを構築するエンタープライズチームにとって、Opus 4.7は今日利用可能な最良のツールです — 議論の余地はありません。個人開発者、研究者、作家、セキュリティ専門家にとって、その価値提案ははるかに不明確であり、Opus 4.6は依然として実行可能で、いくつかの側面では優れた代替案です。集計ベンチマークスコアではなく、あなた固有のワークロードに基づいて選択してください。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...