Claude Mythos Preview
Anthropicの最新推論特化モデル。Mythosアーキテクチャを採用し、HLEベンチマークで64.70を記録するなど、複雑な推論タスクにおいて現在最高水準の性能を発揮する。Managed Agents機能により、自律的なツール利用やマルチステップのタスク実行が可能。安全性と性能の両立を重視した設計が特徴。
パラメータ
非公開
コンテキスト長
200K
ライセンス
プロプライエタリ
リリース日
2026-04-08
日本語性能
多言語対応モデルのうち、日本語処理に優れた性能を持つモデル。
API料金
入力料金(1Mトークンあたり)
$15
出力料金(1Mトークンあたり)
$75
課金モード: standard
強み
- ・推論能力が業界最高水準
- ・Managed Agentsによる自律タスク実行
- ・200Kトークンの長文コンテキスト対応
- ・安全性への配慮
弱み
- ・API料金が高額
- ・オープンソースではない
- ・推論速度がやや遅い
活用例
- ・複雑な推論タスク
- ・自律エージェント
- ・長文の分析・要約
- ・高度なプログラミング支援
深度分析
SWE-bench Verified
93.9%
全モデル中1位;Opus 4.6: 80.8%、GPT-5.5: 未公表
GPQA Diamond
94.6%
1位;Opus 4.6: 91.3%、Gemini 3.1 Pro: 94.3%
CyberGym
83.1%
1位;Opus 4.6: 66.6%、GPT-5.5: 81.8%
Humanity's Last Exam (w/ tools)
64.7%
1位;Opus 4.6: 53.1%、GPT-5.4: 52.1%
USAMO 2026
97.6%
単一ベンチマークにおける過去最大のスコア上昇:Opus 4.6(42.3%)から+55ポイント
入力/出力価格
$25 / $125 per 1M tokens
Opus 4.6の5倍;Project Glasswing経由の招待制
強み
- ・SWE-bench Verified(93.9%)、CyberGym(83.1%)、USAMO 2026(97.6%)において、全フロンティアモデル中過去最高スコアを記録
- ・他の公開モデルには匹敵するものが存在しない自律型攻撃サイバーセキュリティ能力を有し、27年前のOpenBSDや16年前のFFmpegのバグを含む数千件のゼロデイ脆弱性を発見
- ・長時間にわたるエージェント型タスクおよびターミナルタスクにおいて世代的な飛躍を達成(Terminal-Bench 2.0: 82.0%、拡張タイムアウト時92.1%)
弱み
- ・一般公開されておらず、Project Glasswingの厳選された約52の組織に限定されており、一般提供の予定もない
- ・100万トークンあたり$25/$125と極めて高コストで、Opus 4.7の5倍に相当し、承認されたパートナーですら実用的な採用が制限される
- ・攻撃的なサイバー能力によりAnthropicは公開リリースを見送り、ベンチマークスコアでは如何ともし難い根本的なアクセス障壁が生じている
競合比較
| Model | Arena | SWE | GPQA | Price |
|---|---|---|---|---|
| Claude Opus 4.7 | N/A | 87.6% | 94.2% | $5/$25 |
| GPT-5.5 (OpenAI) | N/A | 未公表 | ||
| Gemini 3.1 Pro (Google) | N/A | 80.6% | 94.3% | 未公表 |
2026年4月7日に発表されたClaude Mythos Previewは、Anthropic史上最も強力なモデルであり、Anthropicのモデル階層(Haiku → Sonnet → Opus → Mythos)においてOpusティアの上位に位置する初のモデルです。社内コードネーム「Capybara」で知られるこのモデルは、Anthropicがそれまでの性能トレンドラインから約4.3倍の飛躍と説明しています。コーディング、推論、サイバーセキュリティ、エージェント型ベンチマークの全般にわたって最先端の結果を達成しており、特にSWE-bench Verifiedで93.9%、USAMO 2026で97.6%(Opus 4.6から55ポイントの飛躍)、CyberGymで83.1%、Cybenchでは完全な100%を記録しています。1Mトークンのコンテキストウィンドウと128Kトークンの出力上限は、Claudeファミリー最大の仕様と同等です。
Mythosを他のすべてのフロンティアモデルのリリースと一線を画すのは、そのデプロイメントモデルです。Anthropicは制限のないアクセスに対して安全とは考えられない攻撃的サイバーセキュリティ能力を理由に、一般提供を見送ることを明確に表明しました。その代わり、MythosはAWS、Apple、Google、Microsoft、Cisco、CrowdStrike、NVIDIA、JPMorganChase、Broadcom、Palo Alto Networks、Linux Foundationの12社の主要テクノロジー企業と約40の重要インフラ組織からなる連合体であるProject Glasswingを通じて提供されています。Anthropicは1億ドルの利用クレジットと400万ドルのオープンソースセキュリティ寄付をコミットしました。このモデルは、すべての主要OSとブラウザにまたがり、16〜27年間にわたる数百万回の自動テスト実行でも検出されなかった脆弱性を含む、数千件のゼロデイ脆弱性を自律的に発見しています。
戦略的な影響は極めて大きいです。Mythosは、最も高性能なフロンティアモデルが広くアクセス可能ではないという新たなパラダイムを示しています。Anthropicの244ページにわたるシステムカードには、臨床精神科医による評価(Claudeモデルとしては初)とホワイトボックスの解釈可能性分析が含まれています。同社は、Mythosクラスの能力がセーフガードの成熟とともに将来のClaude Opusリリースに反映される予定であると述べています。より広いAIエコシステムにとって、Mythosは「展開するのに十分な能力」と「制限を要するほどの能力」の間のギャップが今や業界全体の課題であることを示しています。
出典
- Project Glasswing – Anthropic Official Announcement
- Claude Mythos Preview: Benchmarks, Pricing & Project Glasswing – LLM Stats
- Claude Mythos Preview Benchmarks 2026 – BenchLM.ai
- Claude Mythos Preview – LLM Reference
- Claude Mythos Preview – AI Stats (Phaseo)
- Claude Mythos Preview Benchmarks: 93.9% SWE-bench, 97.6% USAMO – AI Tools Kit
- Claude Mythos Preview vs GPT-5.5: Benchmark-by-Benchmark Showdown – Kingy AI
- Claude Mythos Preview: Parameters, Benchmarks, and What Anthropic Said – SmartChunks
- Claude Mythos Preview vs Claude Opus 4.7 Comparison – LLM Stats
- Claude Mythos Preview: What It Is, Who It's For – AIprixa
分析生成日: 2026-05-23