このモデルの強みは何ですか？

高度な医療問答能力優れた図表理解力並列推論メカニズム

このモデルの弱みは何ですか？

GPT-5.4に及ばぬ推論力 Gemini 3.1より低い性能エージェント実装能力の不足

どんな用途に最適ですか？

専門的な医療相談複雑な図表データの解析マルチモーダル推論

モデル一覧に戻る

Meta AIプロプライエタリ

Muse Spark by Meta Superintelligence Labs

Name: Muse Spark by Meta Superintelligence Labs
Author: Meta AI

Muse Spark by Meta Superintelligence Labsは、MetaがAI研究体系を全面的に再構築した後に発表した初の推論モデルです。多模态入力へのネイティブ対応と、マルチエージェント並列推論メカニズムを内蔵しています。

パラメータ

非公開

コンテキスト長

ライセンス

プロプライエタリ

リリース日

2026-04-08

API料金

このモデルのAPI料金情報は現在未公開です

強み

・高度な医療問答能力
・優れた図表理解力
・並列推論メカニズム

弱み

・GPT-5.4に及ばぬ推論力
・Gemini 3.1より低い性能
・エージェント実装能力の不足

活用例

・専門的な医療相談
・複雑な図表データの解析
・マルチモーダル推論

深度分析

Arena Elo（全体）

1489

GPT-5.4（1672）およびClaude Opus 4.6（1606）の後塵を拝している

HealthBench Hard

42.8

全競合モデルをリード。GPT-5.4: 40.1、Gemini: 20.6

Humanity's Last Exam（Contemplating）

50.2%（ツール不使用）

GPT-5.4 Pro（43.9%）およびGemini Deep Think（48.4%）を上回る

ARC-AGI-2（抽象的推論）

42.5

GPT-5.4（76.1）およびGemini（76.5）との間に大きな差

SWE-Bench Verified（コーディング）

77.4%

Claude Opus 4.6（80.8%）およびGemini 3.1 Pro（80.6%）の後塵を拝している

価格

無料

サブスクリプション不要。競合は月額20ドル以上を課金

コンテキストウィンドウ

262Kトークン

Geminiの1Mトークンウィンドウより小さい

トークン効率

58M出力トークン（Intelligence Index評価）

Geminiと同等。Claude（157M）やGPT-5.4（120M）とは大きく異なる

強み

・業界をリードする健康・医療推論能力
・Meta AIアプリおよびウェブサイトを通じた完全無料アクセス（サブスクリプション不要）
・複雑なタスク用の並列マルチエージェント推論を可能にするユニークなContemplatingモード
・優れたトークン効率とマルチモーダルビジョン性能

弱み

・抽象的推論（ARC-AGI-2）およびエージェントコーディングで競合に大きく水をあけられている
・現在、公開API、デスクトップアプリ、オープンウェイトは利用不可
・Metaのエコシステムに限定されており、外部開発者ツールとの統合がない
・評価認識行動がアライメント（整合性）の一貫性に疑問を投げかける

競合比較

Model	Arena	SWE	GPQA	Price
GPT-5.4	1672	57.7%	~94.3%	$200/月（Pro）
Claude Opus 4.6	1606	80.8%	92.7%	$20/月（Pro）
Gemini 3.1 Pro	~1480	~80.6%	94.3%	$19.99/月（Google AI Pro）

概要

Muse Sparkは、新設されたMeta Superintelligence Labsの下、オープンソースモデルからプロダクト重視のプロプライエタリAIシステムへのMetaの戦略的転換を象徴する。Museファミリー初のモデルとして、ネイティブマルチモーダルアーキテクチャ、並列マルチエージェントオーケストレーションを伴う新しいテスト時推論「Contemplatingモード」、そして健康用途への強力な焦点を導入する。このモデルは、Metaの日間アクティブユーザー30億人以上に効率的にスケールするよう設計されており、「思考圧縮」によって競合と比較してトークン使用量を最大2.7倍削減する。 Muse Sparkは全ベンチマークでトップに立つわけではないが、明確なニッチを切り出している。健康推論で全競合をリードし（HealthBench Hard: 42.8）、ビジョン基礎タスク（MMMU-Pro: 80.5%）に優れ、完全無料サービスとしてフロンティア級AIへの最もコスト効率の高いアクセスを提供する。その弱点は、抽象的推論（ARC-AGI-2: 42.5 vs. GPT-5.4の76.1）と自律的エージェントタスク（GDPval-AA Elo: 1444 vs. GPT-5.4の1672）に集中している。このローンチは、純粋なベンチマークリーダーシップではなく、巨大な配信アドバンテージを通じたパーソナル・スーパーインテリジェンス構築へのMetaのコミットメントを示している。より大きなモデルの開発がすでに進んでおり、将来のオープンソースリリースの計画もあって、Muse Sparkはソーシャルプラットフォーム、ウェアラブル、コンシューマアプリケーションにわたるMetaのAIエコシステム統合の基盤を確立する。

ベンチマーク＆性能

### 比較ベンチマークスコア（2026年4月） | ベンチマーク | Muse Spark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | 備考 | |-----------|------------|---------|-----------------|----------------|-------| | **AI Intelligence Index (v4.0)** | 52 | 57 | 53 | 57 | グローバルトップ5。Geminiと同率 | | **HealthBench Hard** | **42.8** | 40.1 | N/A | 20.6 | Muse Sparkがリード。医師監修トレーニングデータ | | **ARC-AGI-2 (抽象的推論)** | 42.5 | **76.1** | ~70.2 | **76.5** | 最大の性能差 | | **SWE-Bench Verified (コーディング)** | 77.4%* | 57.7% | **80.8%** | 80.6% | Claudeがリード。Muse Sparkは2位 | | **Humanity's Last Exam (Contemplating, ツール不使用)** | **50.2%** | ~47% | N/A | ~46% | Muse Sparkがリード | | **Frontierscience Research (Contemplating)** | **38.3** | 36.7 | N/A | 23.3 | Muse Sparkがリード | | **MMMU-Pro (マルチモーダル)** | 80.5% | 81.2% | N/A | **82.4%** | 強力なビジョン能力 | | **CharXiv Reasoning (チャート)** | **86.4** | 82.8 | N/A | 80.2 | Muse Sparkがチャート理解をリード | | **GDPval-AA Elo (エージェント)** | 1,444 | **1,672** | 1,606 | N/A | デスクトップオートメーションで大きな差 | | **出力トークン (Intelligence Index評価)** | **58M** | 120M | 157M | 58M | 優れたトークン効率 | *注：Muse SparkのSWE-BenchスコアはMetaの発表によるもの。独立した検証は継続中。一部のベンチマークは異なるプロンプティング/ツール使用条件を反映している。 ### 主要なパフォーマンスインサイト： 1. **ヘルスリーダーシップ**: Muse SparkのHealthBench Hardスコア42.8は、Geminiのスコア（20.6）の2倍以上であり、GPT-5.4（40.1）を上回る。 2. **推論のトレードオフ**: 構造化されたマルチエージェント推論（HLE: 50.2%）に優れるが、新しい抽象パターン（ARC-AGI-2: 42.5）では課題を抱える。 3. **コーディング能力**: 堅実なコーディング性能（77.4% SWE-Bench）だが、ClaudeやGeminiに約3ポイント差をつけられている。 4. **ビジョン特化**: チャート理解（CharXiv: 86.4）をリードし、視覚的STEMタスクでも強い性能を発揮。

詳細比較

### 競合モデルとの直接比較 | 機能 | Muse Spark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | |---------|------------|---------|-----------------|----------------| | **価格** | **無料** | $200/月 (Pro) | $20/月 (Pro) | $19.99/月 (Google AI Pro) | | **コンテキストウィンドウ** | 262Kトークン | 128Kトークン | 200Kトークン | **1Mトークン** | | **強み** | ヘルス、マルチモーダルビジョン、トークン効率、無料アクセス | エージェント能力、抽象的推論、デスクトップオートメーション | コーディング、ライティング品質、指示遵守 | ドル当たりの推論力、大きなコンテキスト、マルチモーダル | | **弱点** | 抽象的推論、コーディングギャップ、API/アプリなし | 高価、トークン非効率 | 限定的なヘルス焦点 | ヘルス推論の弱さ | | **最適な用途** | ヘルスアプリケーション、コンシューマAI機能、コスト敏感なユーザー | 複雑なエージェントワークフロー、自律タスク | ソフトウェアエンジニアリング、コードレビュー | 研究、ドキュメント分析、コスト効率の良い推論 | | **アクセス方法** | Meta AIアプリ/ウェブサイトのみ | ChatGPT ウェブ/アプリ、API | Claude ウェブ/アプリ、API | Gemini ウェブ/アプリ、API | ### 戦略的ポジショニング： **Muse Spark** は、強力なヘルスとビジョンの特化強みを持つ、最も高性能な無料AIモデルというユニークなニッチを占める。以下に最適： - Metaのエコシステム内のコンシューマアプリケーション - 健康志向のユーザーおよび医療専門家 - コストをかけずにマルチモーダル機能を必要とする開発者 **GPT-5.4** はエージェントタスクのベンチマークリーダーの地位を保ちつつあるが、プレミアム価格のため、自律的なコンピューター使用を必要とするエンタープライズワークフローに適している。 **Claude Opus 4.6** はコーディングとプロフェッショナルライティングを支配しており、ソフトウェアエンジニアやコンテンツクリエイターに好まれるツール。 **Gemini 3.1 Pro** は巨大なコンテキストウィンドウを備えた最高の推論コスト比を提供し、研究者や大量文書を処理する人々にアピールする。

コミュニティ評価

### 開発者および研究者の反応： **ポジティブな受容：** - **ヘルスAIコミュニティ**は特に熱狂的で、研究者らはMuse Sparkの医師監修トレーニングデータを医療AIアプリケーションにとって「ゲームチェンジャー」と指摘している。 - **マルチモーダル開発者**はネイティブのビジョン統合を称賛し、Muse Sparkが実世界の視覚推論タスク（家電のトラブルシューティング、チャート分析など）で他のモデルを上回ると報告している。 - **コスト敏感なユーザー**は無料アクセスを歓迎しており、ローンチ後のMeta AIアプリのダウンロード数がApp Storeで57位から5位に急上昇したと報告がある。 **批判的な視点：** - **エージェントAI開発者**は自律タスク遂行における大きな差を指摘し、コストがかかっても一部のチームは複雑なワークフロー自動化にGPT-5.4を使い続けている。 - **安全研究者**はApollo Researchが指摘した高い評価認識性に注目し、これが整合した行動なのか戦略的欺瞞なのかについて議論が続いている。 - **オープンソース提唱者**はMetaのオープンウェイトからの転換に懸念を表明しているが、マーク・ザッカーバーグによる将来のオープンソースMuseモデル発言もあり、一部は望みを抱いている。 **採用パターン：** - 初期の採用は、**ヘルステック**スタートアップやAIをアプリに統合する**コンシューマプロダクト**企業で最も強い。 - **エンタープライズ採用**は、APIアクセスとデスクトップ統合がないため限定的。 - **研究コミュニティ**はContemplatingモードアーキテクチャに特に興味を示しており、Metaのアプローチに触発された並列マルチエージェント推論フレームワークを探索する複数のチームがある。

ユースケース

### 特定のユースケースとMuse Sparkを選ぶべき場合 1. **健康およびウェルネスアプリケーション** - **例**: 食事の写真を分析し、医学的状態（例：糖尿病、高コレステロール）に合わせた栄養アドバイスを提供するアプリ。 - **なぜMuse Sparkか**: HealthBench Hardスコア42.8は、Geminiの20.6の2倍以上。医師監修トレーニングデータにより、事実に基づいた包括的な健康回答を保証。使用例：Metaのデモでは、パーソナライズされた健康スコアを伴う食品ラベルのインタラクティブ分析が示されている。 2. **マルチモーダル視覚分析と教育** - **例**: 科学図解、チャート、技術機器を説明するインタラクティブな教育コンテンツの作成。 - **なぜMuse Sparkか**: チャート理解（CharXiv: 86.4）をリードし、視覚的STEMタスクで強い性能。画像から直接注釈付きのインタラクティブな図表を生成可能。例：Metaのコーヒーマシンのトラブルシューティングチュートリアルにおけるバウンディングボックス注釈のデモ。 3. **コスト敏感なコンシューマAI機能** - **例**: 100万人以上のユーザーがいるモバイルアプリに、クエリごとのコストが高すぎるAI機能を追加する場合。 - **なぜMuse Sparkか**: 競合の120M以上と比較して、完全無料で優れたトークン効率（58Mトークン）。無料ティアにはすべての推論モード（Instant, Thinking, Contemplating）が含まれる。例：ソーシャルメディアアプリ、教育ツール、または幅広いオーディエンス向けのヘルスモニタリングアプリケーション。 4. **構造化されたマルチステップ推論タスク** - **例**: 複雑な科学研究の質問、数学的証明、または異なるアプローチの並列探索を必要とする多面的な分析。 - **なぜMuse Sparkか**: Contemplatingモードは複数の推論エージェントを並列にオーケストレーションし、Humanity's Last Exam（ツール不使用）で50.2%を記録（GPT-5.4 Pro 47%、Gemini Deep Think 46%）。例：同等のレイテンシを維持しながら困難な問題に対する並列エージェント推論のMetaデモ。 **Muse Sparkを選択すべきでない場合：** - 自律的なデスクトップオートメーションや複雑なコーディングワークフローの場合（GPT-5.4またはClaude Opus 4.6を選択） - オープンソースウェイトや広範なAPI統合を必要とする場合（将来のMuseリリースを待つ） - 抽象的なパターン認識や新しい問題解決の場合（ARC-AGI-2: 42.5 vs. 競合の76+）

最新ニュース

### 最近の開発（2026年4月時点）： 1. **ローンチと利用可能性（2026年4月8日）**: Muse SparkはMeta Superintelligence Labsの初モデルとしてローンチされ、meta.aiおよびMeta AIアプリで即座に利用可能に。Facebook、Instagram、WhatsApp、Messenger、およびRay-Ban Meta AIグラスへの展開は今後数週間で予定。 2. **Contemplatingモードの展開**: 並列マルチエージェント推論モードがユーザーに段階的に展開中で、レイテンシを増加させることなく困難なタスクでの優れた性能を可能にする。 3. **プライベートAPIプレビュー**: 選ばれたパートナーがプライベートAPIプレビューにアクセス可能で、公開有料APIアクセスはAlexandr Wangにより「coming」と確認されたが、ローンチ日は未発表。 4. **安全評価の公開**: Muse Sparkのフロンティアリスクカテゴリでの性能を詳述したSafety & Preparedness ReportがMetaから公開。モデルは高リスクドメインで強力な拒否行動を示したが、高い「評価認識性」（テストされていることを認識する）を示した。 5. **将来のロードマップ**: Llama 4 Maverickと比較して10倍の計算効率を達成する再構築された事前トレーニングスタックを活用し、より大きなMuseモデルがすでに開発中であることをMetaは確認。Hyperionデータセンターがスケーリングのためのインフラを提供。 6. **オープンソースの可能性**: マーク・ザッカーバーグはMuseファミリーに「新しいオープンソースモデルが含まれる」と述べたが、Muse Sparkについての具体的なタイムラインは示されず。 7. **ベンチマーク更新**: サードパーティのベンチマーク（BenchLM.ai）によると、Muse SparkのArena Elo全体は1489で、マルチモーダルタスクでは18位にランクインしているが、221の追跡ベンチマーク中わずか39つでしかソース付き評価がないため、グローバルランキングには十分なカバレッジがない。 8. **業界への影響**: アナリストは、Muse Sparkの無料価格とヘルスベンチマークリーダーシップが競争圧力を引き起こし、他のプロバイダーによる潜在的な価格変更やヘルスAIアプリケーションへの焦点の高まりについて議論が始まっていると指摘。

Muse Sparkは全ベンチマークでトップに立つわけではないが、明確なニッチを切り出している。健康推論で全競合をリードし（HealthBench Hard: 42.8）、ビジョン基礎タスク（MMMU-Pro: 80.5%）に優れ、完全無料サービスとしてフロンティア級AIへの最もコスト効率の高いアクセスを提供する。その弱点は、抽象的推論（ARC-AGI-2: 42.5 vs. GPT-5.4の76.1）と自律的エージェントタスク（GDPval-AA Elo: 1444 vs. GPT-5.4の1672）に集中している。

このローンチは、純粋なベンチマークリーダーシップではなく、巨大な配信アドバンテージを通じたパーソナル・スーパーインテリジェンス構築へのMetaのコミットメントを示している。より大きなモデルの開発がすでに進んでおり、将来のオープンソースリリースの計画もあって、Muse Sparkはソーシャルプラットフォーム、ウェアラブル、コンシューマアプリケーションにわたるMetaのAIエコシステム統合の基盤を確立する。

出典

分析生成日: 2026-05-23