ブログ一覧に戻る
解説

MiniMax M3がオフィスAIの未来を変える:1兆パラメータとマルチモーダルでGPTやClaudeに挑戦

4月、AI業界は一つのツイートに注目した。

MiniMaxのエンジニア、Skyler Miao氏がX上で「M3にも搭載する予定」と回答——同社の次期フラッグシップモデルM3がマルチモーダルビジョン機能を持つことが公式確認された。

M2.7がテキスト専用モデルとしてClaude Opusに迫るコーディング性能を発揮した直後だけに、この情報は開発者コミュニティに大きな波紋を広げた。

M2.5が切り開いた道

M3の話をする前に、その土台となったM2.5とM2.7を押さえる必要がある。

2026年2月にリリースされたM2.5は、MiniMaxの歴史を変えたモデルだ。OpenRouterのデータによると、リリースからわずか1週間で3.07兆トークンを消費。世界のAPI呼び出し量でトップに立ち、MiniMaxのARR(年間経常収益)を1億5,000万ドルに押し上げた。

M2.7のベンチマーク比較チャート。SWE-Bench Pro、Multi-SWE-Bench、VIBE-Pro、TerminalBench 2、BrowseCompの5つのベンチマークで、M2.7、M2.5、Gemini、Sonnet、Opus、GPTを比較。M2.7はSWE-Proで56.22%、TerminalBench 2で57.0%を記録。

M2.5の特徴を一言で言えば:10Bの有効パラメータで、トップモデルに匹敵するコーディング能力を実現したということだ。

SWE-Bench Verifiedで80.2%。Droidハーネスでは79.7%でOpus 4.6の78.9%を上回った。マルチリンガルコーディングのMulti-SWE-Benchでは51.3%で業界最高を記録。

驚くべきはコストだ。100 TPSで1時間連続実行しても1ドル。50 TPSなら30セント。MiniMaxはこれを「ユーザーがコストを気にする必要のない初のフロンティアモデル」と呼んだ。

M2.7:自己進化の始まり

2026年3月にリリースされたM2.7は、さらに踏み込んだ。

M2.7の最大の革新は「自己進化」の仕組みだ。MiniMax社内でM2.7自身がRL(強化学習)実験のハーネスを構築し、実験結果をフィードバックして自らの学習プロセスを改善するループを回した。人間の研究者が実験の方向性を示し、モデルが実行・分析・改善を担う——M2.7はRLチームのワークフローの30〜50%を自律的に処理できるようになった。

M2.7のMLE Bench Liteパフォーマンスチャート。経時的なメダル獲得率の推移を示す折れ線グラフ。Gold、Silver、Bronze、Any Medal Rateの4種類のメダル率が時間経過とともに上昇する様子が描かれている。

ベンチマーク結果:

ベンチマークM2.7スコア内容
SWE-Pro56.22%実世界のソフトウェアエンジニアリング
TerminalBench 257.0%ターミナルベースのエージェントタスク
VIBE-Pro55.6%エンドツーエンドのプロジェクト納品
GDPval-AAELO 1495オフィスドキュメント作成(オープンソース最高)

オフィス面でも大幅に強化された。Word、Excel、PPTの複雑な編集、マルチラウンドの修正、高忠実度の編集に対応。40以上の複雑なスキル(各2,000トークン超)を扱いながら97%のスキル遵守率を維持した。

M3:期待されるもの

M3の発売は2026年5月中と複数の情報源で確認されている。MiniMax創設者「adao」氏が内部グループで「m3 is not far off」「And it's just the beginning」と発言。開発者のSkyler Miao氏がマルチモーダルビジョン機能を公式確認した。

M3の期待される仕様:

項目予想スペック
パラメータ数約1兆(1T)
コンテキストウィンドウ100万トークン
マルチモーダルテキスト+ビジョン(文書・表のスクリーンショット解析)
ターゲットシナリオオフィス(文書理解、表計算、プレゼン生成)
価格戦略M2.5からのコスト競争力路線を継承

Morgan Stanleyのレポートは、M3が「より多くの事前学習とアーキテクチャの革新により知識容量の問題を解決し、強力なマルチモーダル理解をサポートする。全体的なパフォーマンスは世界のトップフラッグシップモデルに真正面から挑むものになる」と予測している。

なぜ「オフィス」なのか

M3の戦略選択は明確だ——コーディングではなくオフィスシナリオに特化する

この選択の背景には、2026年のオフィスAI市場を巡る三つの動きがある。

第一に、Microsoft Agent 365がGAに到達し、企業のオフィスAI需要が爆発的に増加した。

第二に、Claude Codeの成功が「エージェント実行」の価値を証明した。チャットで補助するのではなく、実際にタスクを実行するモデルが10倍の価値を持つ。

第三に、中国モデルはオフィスシナリオにほぼ不在だ。GPTやClaudeが支配する一般対話、M2.5やGLM-5が競うコーディング——そのどちらでもない第三の領域が、オフィスシナリオだった。

M2.5のコーディングベンチマーク。SWE-Bench Verified、Multi-SWE-Bench、VIBE-Pro、TerminalBench 2、BrowseCompの5つのベンチマークで、M2.5、Opus 4.5、Gemini 2.0 Pro、Sonnet 3.7、GPT-4oを比較。M2.5はSWE-Bench Verifiedで80.2%を記録。

MiniMaxはOffice Skillsエンジンもオープンソース化している(MITライセンス)。Word、Excel、PPT、PDFをサポートし、従来のライブラリを迂回して直接Office標準に準拠した出力を生成する。M3はこのOffice Skillsと深く統合されるとみられる。

5月のモデル戦争

M3のリリースは、AI業界史上最も激しいリリースラッシュと重なる。

モデル企業注目ポイント
GPT-5.6OpenAIパラメータ再調整、Terminal-Bench刷新
Sonnet 4.8Anthropicコーディング能力強化
Gemini 3.5GoogleGoogle I/O前のウォームアップ、マルチモーダル強化
MiniMax M3MiniMax国産フラッグシップ、Agent-native、高コストパフォーマンス

中国モデルが米国三大フラッグシップと同じ時間枠で競うのは、これが初めてだ。

中国モデルの分化

M3の登場は、中国モデルエコシステム全体の構造変化を象徴している。

モデル主な焦点現在の状況
Qwen 3.6コーディング+エージェント100万コンテキスト、Fireworks連携
Kimi K2.6コーディング+ビジョンSWE-benchリーダー、Swarmプレビュー
DeepSeek V4推論+コスト効率1兆MoE、キャッシュ価格切り下げ
GLM-5長期エージェント自律エンジニアリング能力
MiniMax M3オフィスシナリオ近日リリース

かつて中国モデルは同じレーンで消耗戦を繰り広げていた。しかし2026年5月、各社は明確に分化したポジションを確立しつつある。M3はその中で「オフィス」という巨大な空白地帯を選んだ。

M2.5のオフィスベンチマーク。Word、Excel、PPT、PDFの各フォーマットでの出力品質を比較。M2.5はGPT-4o、Claude 3.5 Sonnet、Gemini 2.0 Proと比較され、特にExcelとPPTで高いスコアを記録。

日本にとっての意味

M3の登場は、日本市場にとって見過ごせない。

第一に、コスト競争力だ。M2.5の入力価格は$0.15/1Mトークン。Claude Opus 4.7の$15と比べて100分の1。M3がこの価格帯を維持しつつオフィスシナリオの品質をフロンティアレベルに引き上げれば、日本企業のAI導入コストは劇的に下がる。

第二に、Office互換性の問題だ。MiniMaxはOffice SkillsエンジンをMITライセンスで公開しており、WPSや日本の業務システムへの統合可能性がある。ただし、企業向けコンプライアンス要件(データセキュリティ、監査ログ)が導入の障壁になる可能性がある。

第三に、マルチモーダルの射程だ。文書のスクリーンショットから表計算を解析し、プレゼンテーションを自動生成する——これは日本の事務職の働き方を根本的に変える可能性を持つ。

課題とリスク

楽観視すべきではない点もある。

リリース遅延のリスク。中国モデルの「発売日逃れ」は常態化している。M3が5月中にリリースされない可能性は十分にある。

Officeシナリオの難しさ。モデルの能力だけでは不十分で、Office/WPSエコシステムとの深いつなぎ合わせが必要だ。Microsoft Agent 365はすでにGA済みで、圧倒的なエコシステム優位性を持つ。

知識容量の制約。M2.5は10B有効パラメータという設計上のトレードオフにより、知識容量に限界があるとの報告があった。M3が1兆パラメータに到達すればこの問題は解決するが、推論コストとのバランスが課題になる。

まとめ

MiniMax M3は、中国モデルが「コストで勝負する」段階から「シナリオで差別化する」段階に入ったことを示す。

M2.7の公式ヒーローバナー。「Building Complex Agent Harnesses for Elaborate Productivity Tasks」というサブタイトルが付いている。

1兆パラメータ、100万トークン、マルチモーダルビジョン——スペックだけを見れば、GPT-5.5Claude Opus 4.7と肩を並べる。しかしM3の真の勝機はスペックではない。オフィスシナリオという空白地帯を、どれだけ速く、どれだけ安く埋められるかだ。

2019年の華為が「スペアタイヤ」を作ったように、MiniMaxは「もう一つのレーン」を作りつつある。コーディングの次は、オフィスだ。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...