Anthropic、Claude Opus 4.8を公開──価格据え置き、性能と誠実性を小幅ながらも実質的に改善
2026年5月28日、Anthropicはフラッグシップモデルの新バージョン「Claude Opus 4.8」を公開しました。これは、規模こそ大きくないものの方向性の明確なイテレーションです。モデルはコーディング、エージェントタスク、推論、ナレッジワーカー向けベンチマークの各分野で、前世代のOpus 4.7を全体的に小幅ながら上回り、価格は据え置かれました。そして、今回最も強調された改善点は「誠実性」です。Anthropicは公式発表でこれを「前世代への穏やかではあるが、確かな改善(a modest but tangible improvement)」と率直に位置づけています。
注目すべきはイテレーションのペースです。Opus 4.8は、Opus 4.7の公開からわずか41日後のリリースとなり、Opusシリーズ史上最速のバージョンアップとなりました。モデルIDはclaude-opus-4-8で、入力100万トークン、出力12.8万トークンのコンテキスト構成を提供します。

ベンチマークテスト:コーディングは顕著な改善も、ターミナルタスクではGPT-5.5に及ばず
公式のSystem Cardで公開されたデータを見ると、Opus 4.8の改善は主にコーディングとエージェント能力に集中していますが、ベンチマークによって上昇幅は大きく異なるため、個別に見る必要があります。
コーディング面では、真に意味のある改善は、より難易度の高いSWE-bench Proから生まれました。Opus 4.8は69.2%を記録し、Opus 4.7の64.3%から4.9ポイント向上しました。一方、すでに天井に近いSWE-bench Verifiedは87.6%から88.6%(+1.0)、SWE-bench Multilingualは80.5%から84.4%(+3.9)と微増にとどまりました。つまり、既に飽和状態にあるベンチマークでは改善の余地が少なく、まだ飽和していない、より困難なタスクに改善が集中している──これは、モデルの実際のコーディング能力が進歩したかどうかを判断するための、より信頼性の高いシグナルと言えます。
エージェントのターミナルタスク(Terminal-Bench 2.1)は、今回の単項目で最大の上昇を見せました。66.1%から74.6%へ、8.5ポイントも向上しています。しかし、ここは正直に申し上げなければなりません。この上昇幅が最大であるにもかかわらず、Opus 4.8はこの項目で依然としてGPT-5.5に負けています。同一のTerminus-2公開harnessの下で、GPT-5.5は78.2%を獲得。GPT-5.5付属のCodex CLI harnessを使えば、そのスコアはさらに高い83.4%に達します。Anthropicも脚注でこれを認めています。結論は明確です。もしあなたの主な作業環境がターミナル/CLIであるなら、現在の総合最強モデルが必ずしもあなたに最適なモデルとは限らないのです。
推論系ベンチマークの成績は二極化しました。最も顕著なのはUSAMO 2026の数学証明で、69.3%から96.7%へと劇的に跳ね上がり、単一バージョン周期で27.4ポイントも向上しました。この変化は、漸進的な改良というより、数学推論の深度が質的に変化したと感じさせます。しかし一方で、GPQA Diamondは前世代Opus 4.7の94.2%から93.6%へとやや後退しました。Humanity's Last Exam(ツール使用)は54.7%から57.9%へ上昇しました。
ナレッジワーカー向けでは、Artificial AnalysisのGDPval-AA評価において、Opus 4.8は1890 Eloでリードし、前世代の1753から137ポイントの向上、そしてGPT-5.5の1769をも大きく上回りました。コンピュータ利用(OSWorld-Verified)では83.4%、ブラウザエージェント(Online-Mind2Web)では84%を記録しました。総合すると、Anthropicが公表した比較において、Opus 4.8は7項目中6項目で勝利を収め、唯一敗北したのが上述のTerminal-Bench 2.1でした。
「誠実性」が今回の更新で繰り返し強調された売点
ベンチマークの数値が穏やかな改善であったのに対し、Anthropicの発表で最も多くの紙面が割かれたのは、モデルの「誠実性(honesty)」でした。
ここで言う「誠実さ」には明確な定義があります。それは、モデルが自らが裏付けられない主張をすることを避ける、という意味です。AIモデルに共通する問題の一つは、十分な根拠なしに軽々と結論を導き出したり、タスクの完了や進展を自信過剰に宣言したりすることです。Anthropicによると、Opus 4.8は自らの作業における不確実性を積極的に明示する傾向が強くなり、根拠のない結論を出すことが少なくなっています。
定量的な指標に落とし込むと、Opus 4.8が自ら書いたコードにおいて、欠陥を注釈なしで「ごまかし通す」確率は、前世代のおよそ4分の1(約4倍低い)となっています。 早期テスターからのフィードバックも、他のモデルが見落としがちでユーザー自身に発見を委ねていた箇所──モデル自らが入力や出力の問題点を指摘する──を、このモデルが行うという点で一致しています。
コードレビューや金融分析、法務といったハイリスクな専門ワークフローにモデルを使用するユーザーにとって、この改善の実際の価値は、単一のベンチマークスコアの向上よりも大きい可能性があります。「ここは分かりません」と言うモデルは、長期間・無人運用のエージェントワークフローにおいて、スコアは高くても自信満々に誤りを犯すモデルよりも、より実用的なのです。
対齊評価:逸脱行動率がMythos水準に迫る
リリース前の対齊(alignment)評価において、Anthropicの対齊チームは次のように結論づけました。Opus 4.8は「ユーザーの自律性を支援し、ユーザーの最善の利益のために行動するという、親社会的特質(prosocial traits)の測定において新たな高みに達した」。
さらに重要なデータセットがあります。Opus 4.8の逸脱行動率(欺瞞や悪用への協力など)はOpus 4.7と比較して著しく低下しており、Anthropicの対齊性能が最も優れたモデルであるClaude Mythos Previewの水準にまで接近しています。 完全な対齊評価と一連のデプロイ前セキュリティテストは、Opus 4.8 System Cardにすべて収録されています。
同時に公開された三つの機能アップデート
モデル自体に加え、Anthropicは同日に三つの配套アップデートも発表しました。そのうち二つは、Opus 4.7時代にユーザーから多かった「思考時間が長すぎる」というフィードバックに対応したものです。
第一は**「投入制御(Effort Control)」**です。claude.aiとCoworkのモデルセレクターの隣に追加され、ユーザーはClaudeがタスクに投入する計算リソースとトークン量を手動で選択できます。Opus 4.8のデフォルトは「高(high)」投入度で、コーディングタスクに費やすトークンはOpus 4.7のデフォルトと同程度ですが、性能は優れています。ユーザーは「extra」(Claude Codeではxhighに対応)または「max」を選択し、より多くのトークンを費やしてより良い結果を得ることもできます。Anthropicは、困難なタスクや長時間の非同期ワークフローには「extra」モードの使用を推奨し、Claude Codeのレート制限も引き上げました。
第二は**「動的ワークフロー(Dynamic Workflows)」です。現在は研究プレビュー段階で、Claude CodeのEnterprise、Team、Maxプラン向けに提供されています。これは、Claudeがまずタスクを計画し、単一セッション内で数百ものサブエージェント(subagents)を並行実行**し、報告前に自ら出力を検証することを可能にします。公式が示す代表的なシナリオは、Claude CodeとOpus 4.8を組み合わせることで、数十万行のコードベースにまたがるコードベースレベルのマイグレーションを、開始からマージまで、既存のテストスイートを合格基準として完了する、というものです。
第三は開発者向けです。Messages APIで、messages配列内にsystemエントリを挿入できるようになりました。 これは、タスクの実行中にClaudeへの指示(例:権限、トークン予算、環境コンテキストの調整)を更新できることを意味します。プロンプトキャッシュを中断することなく、また、更新をユーザーメッセージのやり取りとして偽装する必要もありません。
価格と提供状況:据え置き、さらにfastモードは3倍安い
Opus 4.8は即日、全プラットフォームで利用可能です。通常の使用料金はOpus 4.7と完全に同一です。入力トークン100万あたり5米ドル、出力トークン100万あたり25米ドルです。開発者はClaude API経由でclaude-opus-4-8として呼び出すことができます。
変化はfastモードにあります。このモードは約2.5倍の速度で動作し、入力/出力トークン100万あたり10/50米ドル(通常価格の2倍)で提供されますが、前世代Claudeモデルのfastモードに比べ、単位価格は3倍安くなりました。この調整は、最近の業界全体の動き──能力向上と同時に単位推論コストを圧下する──に合致しており、コストに敏感な高頻度呼び出しシナリオに大きな影響を与えます。
その他注目点:Mythos級モデルが近日中に全顧客向けに
Anthropicは発表の中で、次の一手についても改めて予告しました。Opusを超える知能水準を持つ、全新モデルカテゴリーのリリースを計画しているとのことです。Project Glasswingの一部として、現在一部の機関がサイバーセキュリティ関連の作業にClaude Mythos Previewを使用しています。この能力レベルのモデルを広くリリースするには、より強力なサイバーセキュリティ対策が必要となるため、Anthropicは関連する対策を急速に進めており、「今後数週間以内」にMythos級モデルをすべての顧客にもたらす見込みだと述べています。
なお、現時点で公開利用可能な最強モデルは依然是としてOpus 4.8であり、Mythos級モデルはまだ一般に開放されておらず、その実際の能力とリリース時期には不確実性が残ります。
まとめ
Claude Opus 4.8は、位置づけの明確な「強化型」アップデートであり、破壊的アップグレードではありません。価格を据え置いた上で、コーディング(特に難易度の高いSWE-bench Pro)、エージェントのターミナルタスク、そしてナレッジワーカー向け能力を全面的に一つ上のレベルへと押し上げ、数学推論ではUSAMO 2026のような異常なほどの単項目の飛躍を見せました。
しかし、真の差別化要因は、あるベンチマークの数値ではなく、二つの比較的「ソフト」な次元にあります。一つは**「誠実性」──自信を持って誤りを犯すことが減り、不確実性を自ら積極的に曝け出す点。もう一つは対齊性能**──逸脱行動率がMythos水準に迫っている点です。絶対的なターミナルコーディング性能を追求するユーザーにとって、GPT-5.5はTerminal-Bench 2.1で依然として優位に立っています。しかし、長期にわたり、信頼を置き、低リスクで実際の作業を委ねられる、プロフェッショナルなワークフローを必要とするユーザーにとって、Opus 4.8の信頼性向上は、スコアそのものよりも意味のあるものかもしれません。
Opus 4.7からわずか41日でのリリースであり、AnthropicがMythos級モデルの到来を明確に予告していることを考慮すると、Opus 4.8は正式なリリース前夜の、堅実なトランジションモデルと言えるでしょう。
Loading...