このモデルの強みは何ですか？

推論能力が業界最高水準 Managed Agentsによる自律タスク実行 200Kトークンの長文コンテキスト対応安全性への配慮

このモデルの弱みは何ですか？

API料金が高額オープンソースではない推論速度がやや遅い

どんな用途に最適ですか？

複雑な推論タスク自律エージェント長文の分析・要約高度なプログラミング支援

モデル一覧に戻る

Anthropicプロプライエタリ

Claude Mythos Preview

Name: Claude Mythos Preview
Price: 15 USD
Author: Anthropic

Anthropicの最新推論特化モデル。Mythosアーキテクチャを採用し、HLEベンチマークで64.70を記録するなど、複雑な推論タスクにおいて現在最高水準の性能を発揮する。Managed Agents機能により、自律的なツール利用やマルチステップのタスク実行が可能。安全性と性能の両立を重視した設計が特徴。

パラメータ

非公開

コンテキスト長

200K

ライセンス

プロプライエタリ

リリース日

2026-04-08

日本語性能

✅高品質日本語

多言語対応モデルのうち、日本語処理に優れた性能を持つモデル。

API料金

入力料金（1Mトークンあたり）

$15

出力料金（1Mトークンあたり）

$75

課金モード: standard

強み

・推論能力が業界最高水準
・Managed Agentsによる自律タスク実行
・200Kトークンの長文コンテキスト対応
・安全性への配慮

弱み

・API料金が高額
・オープンソースではない
・推論速度がやや遅い

活用例

・複雑な推論タスク
・自律エージェント
・長文の分析・要約
・高度なプログラミング支援

深度分析

SWE-bench Verified

93.9%

全モデル中1位；Opus 4.6: 80.8%、GPT-5.5: 未公表

GPQA Diamond

94.6%

1位；Opus 4.6: 91.3%、Gemini 3.1 Pro: 94.3%

CyberGym

83.1%

1位；Opus 4.6: 66.6%、GPT-5.5: 81.8%

Humanity's Last Exam (w/ tools)

64.7%

1位；Opus 4.6: 53.1%、GPT-5.4: 52.1%

USAMO 2026

97.6%

単一ベンチマークにおける過去最大のスコア上昇：Opus 4.6（42.3%）から+55ポイント

入力/出力価格

$25 / $125 per 1M tokens

Opus 4.6の5倍；Project Glasswing経由の招待制

強み

・SWE-bench Verified（93.9%）、CyberGym（83.1%）、USAMO 2026（97.6%）において、全フロンティアモデル中過去最高スコアを記録
・他の公開モデルには匹敵するものが存在しない自律型攻撃サイバーセキュリティ能力を有し、27年前のOpenBSDや16年前のFFmpegのバグを含む数千件のゼロデイ脆弱性を発見
・長時間にわたるエージェント型タスクおよびターミナルタスクにおいて世代的な飛躍を達成（Terminal-Bench 2.0: 82.0%、拡張タイムアウト時92.1%）

弱み

・一般公開されておらず、Project Glasswingの厳選された約52の組織に限定されており、一般提供の予定もない
・100万トークンあたり$25/$125と極めて高コストで、Opus 4.7の5倍に相当し、承認されたパートナーですら実用的な採用が制限される
・攻撃的なサイバー能力によりAnthropicは公開リリースを見送り、ベンチマークスコアでは如何ともし難い根本的なアクセス障壁が生じている

競合比較

Model	Arena	SWE	GPQA	Price
Claude Opus 4.7	N/A	87.6%	94.2%	$5/$25
GPT-5.5 (OpenAI)	N/A	未公表
Gemini 3.1 Pro (Google)	N/A	80.6%	94.3%	未公表

概要

2026年4月7日に発表されたClaude Mythos Previewは、Anthropic史上最も強力なモデルであり、Anthropicのモデル階層（Haiku → Sonnet → Opus → Mythos）においてOpusティアの上位に位置する初のモデルです。社内コードネーム「Capybara」で知られるこのモデルは、Anthropicがそれまでの性能トレンドラインから約4.3倍の飛躍と説明しています。コーディング、推論、サイバーセキュリティ、エージェント型ベンチマークの全般にわたって最先端の結果を達成しており、特にSWE-bench Verifiedで93.9%、USAMO 2026で97.6%（Opus 4.6から55ポイントの飛躍）、CyberGymで83.1%、Cybenchでは完全な100%を記録しています。1Mトークンのコンテキストウィンドウと128Kトークンの出力上限は、Claudeファミリー最大の仕様と同等です。 Mythosを他のすべてのフロンティアモデルのリリースと一線を画すのは、そのデプロイメントモデルです。Anthropicは制限のないアクセスに対して安全とは考えられない攻撃的サイバーセキュリティ能力を理由に、一般提供を見送ることを明確に表明しました。その代わり、MythosはAWS、Apple、Google、Microsoft、Cisco、CrowdStrike、NVIDIA、JPMorganChase、Broadcom、Palo Alto Networks、Linux Foundationの12社の主要テクノロジー企業と約40の重要インフラ組織からなる連合体であるProject Glasswingを通じて提供されています。Anthropicは1億ドルの利用クレジットと400万ドルのオープンソースセキュリティ寄付をコミットしました。このモデルは、すべての主要OSとブラウザにまたがり、16〜27年間にわたる数百万回の自動テスト実行でも検出されなかった脆弱性を含む、数千件のゼロデイ脆弱性を自律的に発見しています。戦略的な影響は極めて大きいです。Mythosは、最も高性能なフロンティアモデルが広くアクセス可能ではないという新たなパラダイムを示しています。Anthropicの244ページにわたるシステムカードには、臨床精神科医による評価（Claudeモデルとしては初）とホワイトボックスの解釈可能性分析が含まれています。同社は、Mythosクラスの能力がセーフガードの成熟とともに将来のClaude Opusリリースに反映される予定であると述べています。より広いAIエコシステムにとって、Mythosは「展開するのに十分な能力」と「制限を要するほどの能力」の間のギャップが今や業界全体の課題であることを示しています。

ベンチマーク＆性能

Claude Mythos Previewは、報告されているほぼすべてのベンチマークカテゴリーで圧倒的な優位性を示しており、漸進的な改善ではなく世代的な飛躍を表しています。すべてのスコアはAnthropicによる自己報告であり、その点を留意して解釈する必要があります。 ## エージェント型コーディング | ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.5 | Gemini 3.1 Pro | |---|---|---|---|---| | SWE-bench Verified | **93.9%** | 80.8% | 未公表 | 80.6% | | SWE-bench Pro | **77.8%** | 53.4% | 58.6% | 54.2% | | SWE-bench Multilingual | **87.3%** | 77.8% | 未公表 | 未公表 | | Terminal-Bench 2.0 | **82.0%**（拡張タイムアウト時92.1%） | 65.4% | 82.7% | 68.5% | SWE-bench Proにおいて、MythosはGPT-5.5を約19ポイント上回っており、直接比較可能なコーディングベンチマークでは最大の差です。Terminal-Bench 2.0ではデフォルト設定でGPT-5.5と実質的に同率（82.0% vs 82.7%）ですが、更新された2.1ハーネスと4時間の拡張タイムアウトでは92.1%に到達します。 ## 推論・数学 | ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro | |---|---|---|---|---| | GPQA Diamond | **94.6%** | 91.3% | 92.8% | 94.3% | | USAMO 2026 | **97.6%** | 42.3% | 95.2% | 74.4% | | HLE（ツール使用あり） | **64.7%** | 53.1% | 52.1% | 51.4% | | HLE（ツール使用なし） | **56.8%** | 40.0% | 39.8% | 44.4% | | GraphWalks BFS 256K–1M | **80.0%** | 38.7% | 21.4% | 未公表 | USAMOが42.3%から97.6%への飛躍は、今回のリリースの中で最も注目すべき数値です。GraphWalks BFSは、Opus 4.6と比較して長コンテキスト推論が2倍以上になっており、非常に大きなコンテキストウィンドウにわたる推論の質的な向上を示唆しています。HLEについて、AnthropicはMythosが「低負担でも良好な性能を示しており、一定程度の記憶化の可能性が示唆される」と述べています。 ## サイバーセキュリティ | ベンチマーク | Mythos Preview | Opus 4.6 | |---|---|---| | CyberGym | **83.1%** | 66.6% | | Cybench | **100%（飽和）** | 未公表 | | Firefox 147エクスプロイト | **181個の実効性のあるエクスプロイト** | 2個 | | OSS-Fuzz（Tier 5ハイジャック） | **10個の完全な制御フローハイジャック** | 0（1個のTier-3クラッシュ） | 英国AIセキュリティ研究所による独立評価では、2025年4月以前はどのモデルも達成できなかった専門家レベルのCTFタスクにおいて、Mythosが73%の成功率を達成していることが確認されました。AISIの32ステップ「The Last Ones」企業ネットワークシミュレーションにおいて、Mythosは初めてエンドツーエンドでの解決を達成（10回中3回成功）し、平均22ステップを達成しました。Opus 4.6の平均は16ステップでした。 ## マルチモーダル・コンピュータ利用 | ベンチマーク | Mythos Preview | Opus 4.6 | |---|---|---| | OSWorld-Verified | **79.6%** | 72.7% | | BrowseComp | **86.9%**（トークン数4.9倍削減） | 83.7% | | CharXiv Reasoning（ツール使用あり） | **93.2%** | 78.9% | | LAB-Bench FigQA（ツール使用あり） | **89.0%** | 75.1% | | MMMLU | **92.7%** | 91.1% | BenchLM.aiはこれらを総合し、暫定的な総合スコア99/100（117モデル中1位）としています。Mythosはエージェント型、コーディング、多言語カテゴリーで1位、マルチモーダルカテゴリーで3位にランクされています。 ## 主要な注意点 - すべてのスコアはAnthropicによる自己報告です。 - SWE-bench Multimodal（59.0%）は内部実装を使用しており、公開リーダーボードとは直接比較できません。 - AnthropicはHLEにおける記憶化の可能性を認めています。 - パラメータ数は非公開。「10兆」はリーク後の報道による根拠のない推測です。

詳細比較

## Claude Mythos Preview vs Claude Opus 4.7 | 観点 | Mythos Preview | Opus 4.7 | |---|---|---| | 利用可能性 | 招待制（Project Glasswing） | 一般公開 | | SWE-bench Verified | 93.9% | 87.6% | | SWE-bench Pro | 77.8% | 64.3% | | GPQA Diamond | 94.6% | 94.2% | | Terminal-Bench 2.0 | 82.0% | 69.4% | | CyberGym | 83.1% | 73.1% | | HLE（ツール使用あり） | 64.7% | 54.7% | | コンテキストウィンドウ | 1Mトークン | 1Mトークン | | 最大出力 | 128Kトークン | 128Kトークン | | 入力/出力価格 | $25/$125（1Mトークンあたり） | $5/$25（1Mトークンあたり） | Mythosは報告されているすべてのベンチマークでOpus 4.7を上回り、特にSWE-bench Pro（+13.5ポイント）、Terminal-Bench 2.0（+12.6ポイント）、CyberGym（+10ポイント）で顕著な差があります。しかしながら、Opus 4.7は最も高性能な*一般公開*されているClaudeモデルであり、コストは5分の1です。AnthropicはOpus 4.7を、将来的なMythosクラスの一般リリースに先立って新たなサイバーセーフガードがテストされているブリッジモデルとして位置付けています。 ## Claude Mythos Preview vs GPT-5.5 | 観点 | Mythos Preview | GPT-5.5 | |---|---|---| | 利用可能性 | 約52組織 | 一般公開（ChatGPT、API） | | SWE-bench Pro | 77.8% | 58.6% | | Terminal-Bench 2.0 | 82.0% | 82.7% | | OSWorld-Verified | 79.6% | 78.7% | | BrowseComp | 86.9% | 84.4% | | CyberGym | 83.1% | 81.8% | 両モデルがスコアを報告している5つのベンチマークのうち、Mythosは5つすべてでリードしていますが、3つは通常の誤差範囲内です。SWE-bench Proの差（約19ポイント）が唯一明確に大きな差異です。GPT-5.5には公開されたSWE-bench VerifiedスコアもCybenchの数値も同等のゼロデイ発見プログラムもありません。根本的な非対称性はデプロイメントにあり、GPT-5.5は数百万のChatGPTユーザーに展開されているのに対し、Mythosは重要インフラの防衛者に限定されています。Kingy AIの分析が結論づけている通り、「ベンダーが報告する重複ベンチマークではMythosがリードしているが、現実世界での利用可能性では、実際に使えるのはGPT-5.5だけ」です。 ## Claude Mythos Preview vs Gemini 3.1 Pro | 観点 | Mythos Preview | Gemini 3.1 Pro | |---|---|---| | SWE-bench Verified | 93.9% | 80.6% | | GPQA Diamond | 94.6% | 94.3% | | Terminal-Bench 2.0 | 82.0% | 68.5% | | USAMO 2026 | 97.6% | 74.4% | | HLE（ツール使用あり） | 64.7% | 51.4% | Mythosはコーディングおよびエージェント型ベンチマークでGemini 3.1 Proを大きく上回っています。GPQA Diamondは実質的に同率（94.6% vs 94.3%）です。USAMOの差（23ポイント）は大きいものの、Opus 4.6との差ほどの劇的なものではありません。Googleはこの比較セットにおいてGemini 3.1 Proのサイバーセキュリティベンチマークスコアを公表していません。

コミュニティ評価

AI研究・開発コミュニティは、Claude Mythos Previewに対し、畏敬、苛立ち、そして戦略的再評価が混在する反応を示しています。 **ベンチマークでの圧倒的優位性は広く認められている。** BenchLM.aiはMythosに暫定的な1位（99/100、117モデル中）を付与しています。Vellum、R&D World、SmartChunksによる独立分析もすべて、Anthropicが報告したすべてのベンチマークにおいて、MythosがそれまでのフラッグシップであるOpus 4.6を漸進的ではなく明らかに世代的な差で上回っていることを確認しています。USAMO 97.6%のスコアは、複数のコメンテーターによって「2026年のモデル発表における最も衝撃的な単一数値」と評されています。 **アクセス制限への不満。** 開発者コミュニティで最も一般的な反応は、この程度の高性能モデルが招待制アクセスに閉じていることは、二層のAIエコシステムを生み出すというものです。Hacker NewsやAI Twitterでのフォーラム議論では、サイバーセキュリティ上の理由は理解されつつも、公開APIがないことは、より広い開発者コミュニティが主張の検証、モデル上での構築、本番ワークフローへの統合をできないことを意味すると指摘されています。Kingy AIの比較記事はこの緊張を端的に表現しています。「一言で言うと、ベンダーが報告する重複ベンチマークではMythosがリードしているが、現実世界での利用可能性では、実際に使えるのはGPT-5.5だけだ。」 **Anthropicの安全姿勢への敬意。** 244ページのシステムカード、臨床精神科医による評価セクション、ホワイトボックスの解釈可能性分析は、アライメント研究者らから異例の徹した開示として称賛されています。Mythosのサイバー能力を確認した英国AIセキュリティ研究所の独立評価は、フロンティアAIの主張に対する第三者検証のモデルケースとして引用されています。 **オープンソースセキュリティコミュニティの反応。** Alpha-Omega/OpenSSFへの250万ドル、Apache Foundationへの150万ドルの寄加え、さらにClaude for Open Sourceアクセスプログラムは、歴史的に高価なセキュリティツールへのアクセスが不足していたオープンソースメンテナーらから好意的に受け止められています。 **業界全体への戦略的影響。** セキュリティ専門家やAI政策研究者は、Mythosが「これは一般公開するには危険すぎる」とデプロイ元の企業が明確に述べた初のフロンティアモデルであると指摘しています。ニューヨーク・タイムズはこの発表を「Anthropicの新Mythos AIモデルが世界に警鐘を鳴らす」という見出しで報道し、AI能力ガバナンスにおける転換点として位置づけました。複数のアナリストが、強力なモデルを防衛目的でデプロイしつつ一般公開を控えるAnthropicのアプローチは、他の研究ラボも追随を迫られる可能性のある、責任あるフロンティアAIデプロイメントの新たなテンプレートを創出していると指摘しています。 **採用パターン。** アクセスが約52組織に限定されているため、実際の採用は主要クラウドプロバイダー（AWS、Google Cloud、Microsoft Azure）、サイバーセキュリティ企業（CrowdStrike、Palo Alto Networks）、重要インフラオペレーター（JPMorganChase、Linux Foundationエコシステム）に集中しています。Anthropicの1億ドルクレジットコミットメントにより、リサーチプレビュー期間中の十分な利用量が確保されます。

ユースケース

### 1. 防御サイバーセキュリティ・脆弱性研究これはAnthropicがMythosのために設計した主要ユースケースであり、Project Glasswingが存在する理由です。Mythosは数十年にわたる自動テストでも検出されなかったバグを含む、すべての主要OSとブラウザにまたがる数千件のゼロデイ脆弱性を自律的に発見しています。具体的な用途には、本番バイナリにおけるローカル脆弱性検出、重要インフラのブラックボックスペネトレーションテスト、オープンソースコードベースの自動セキュリティ監査、エクスプロイトチェーンの発見が含まれます。Firefox 147ベンチマークでは、Opus 4.6の2個に対しMythosは181個の実効性のあるエクスプロイトを生成しました。**Mythosを選択すべき場面は、** お客様の組織が承認済みアクセスを持ち、重要システムの防御セキュリティに取り組んでいる場合です。この能力ティアに匹敵する他の公開モデルは存在しません。 ### 2. 複雑で長時間のタスク向け自律エージェント型コーディング SWE-bench Verifiedで93.9%、SWE-bench Proで77.8%、Terminal-Bench 2.0で82.0%を達成したMythosは、利用可能な最強の自律コーディングエージェントです。コードベースの調査、修正の実装、テストの実行、結果の報告を最小限の人的介入で行うことができます。このモデルはAnthropicのManaged Agents機能を通じてツール使用とマルチステップタスク実行をサポートしています。**Mythosを選択すべき場面は、** 大規模なコードベースにわたる継続的な調査を必要とする複雑なソフトウェアエンジニアリングタスクをAIに自律的に解決させる必要がある場合、特にタスクがセキュリティに敏感なコードを含む場合や正確性に対する高い信頼性が求められる場合です。セキュリティ感度のない一般的なコーディングタスクについては、Opus 4.7（SWE-bench Verified: 93.9% → 87.6%、コストは5分の1）の方が実用的です。 ### 3. 高度な数学・科学推論 USAMO 2026の97.6%とHLE（ツール使用なし）の56.8%は、AI数学推論の最前線を表しています。Mythosは特に、マルチステップ証明、創造的な問題分解、コンペティションレベルの数学において顕著な強さを示しています。GPQA Diamondの94.6%も、大学院レベルの科学推論の高さを示しています。**Mythosを選択すべき場面は、** 研究グレードの数学問題の解決、複雑な証明の検証、Opus 4.6に対する55ポイントのUSAMOの差が質的に異なる問題解決能力に直結する科学推論タスクに取り組む場合です。標準的な学術的なQ&Aについては、Opus 4.7とのGPQA差（94.6% vs 94.2%）は無視できる程度です。 ### 4. 長コンテキスト推論・文書分析 1Mトークンのコンテキストウィンドウと、GraphWalks BFS 256K–1Mの80.0%（Opus 4.6の38.7%と比較）により、Mythosは非常に大きなコンテキストにわたる推論において唯一無二の能力を持っています。これは大規模コードベースの分析、長文の法的・規制文書の処理、複数文書にわたる研究総合、複雑なナレッジグラフの探索に関連します。**Mythosを選択すべき場面は、** 数十万から数百万トークンにまたがる文書全体にわたって、単なる検索ではなく真の推論を必要とするタスクがある場合です。GraphWalksの結果は、プロンプティング戦略に関係なく小さなモデルでは再現できない質的な長コンテキスト改善を示唆しています。