Gemini 3.5 Flash: Google I/O 2026で発表されたエージェント特化型フロンティアモデルの全貌
2026年5月19日、Google I/O 2026の基調講演で**Gemini 3.5 Flash**が発表された。
「フロンティアインテリジェンスをFlashレイテンシで」——これがGoogleのメッセージだ。安く、速い、しかし性能はフロンティア級。エージェントワークロードに最適化された、新しい種類のモデルである。
Gemini 3.5 Flashとは何か
Gemini 3.5 Flashは、Google DeepMindが開発したエージェント・コーディング特化型の大規模言語モデルだ。Gemini 3.5ファミリーの最初のモデルとして、I/O 2026で即日GA(一般利用開始)された。
APIモデルIDはgemini-3.5-flash(プレビューサフィックスなし)。内部バージョンは3.5-flash-05-2026。知識カットオフは2026年1月。
基本仕様:
| 項目 | スペック |
|---|---|
| 最大入力 | 1,048,576トークン(1M) |
| 最大出力 | 65,536トークン(64K) |
| 入力モダリティ | テキスト、画像、音声、動画 |
| 出力モダリティ | テキストのみ |
| 動的思考 | デフォルトで有効 |
| 速度 | 同等フロンティアモデルの4倍 |
料金:フロンティアモデルの中で最も安い
| ティア | 入力 | 出力 | キャッシュ入力 |
|---|---|---|---|
| グローバル | $1.50/1M | $9.00/1M | $0.15/1M |
| 非グローバル | $1.65/1M | $9.90/1M | $0.165/1M |
比較のために:
| モデル | 入力/1M | 出力/1M |
|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 |
| Gemini 3.1 Pro | $2.50 | $15.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $1.25 | $10.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
Gemini 3.1 Proと比べて入力40%安、出力40%安。そしてキャッシュ入力は$0.15/1M——通常価格の10分の1。エージェントが同じコンテキストを繰り返し読むケースでは、これが圧倒的なコスト優位になる。
Googleは「1分間に1ドルの収益を、コスト0.3ドル以下で生み出すモデル」と説明している。
ベンチマーク:エージェントとコーディングでProを凌駕
Gemini 3.5 Flashの設計思想は明確だ——学術的な推論ではなく、実世界のエージェントタスクで最高性能を出す。
コーディング
| ベンチマーク | 3.5 Flash | 3.1 Pro | 差分 |
|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 70.3% | +5.9 |
| SWE-Bench Pro(公開) | 55.1% | 54.2% | +0.9 |
Terminal-Bench 2.1はターミナルベースのエージェントタスクを評価するベンチマークで、Flashが6ポイント近い差をつけた。
エージェント・ツール利用
| ベンチマーク | 3.5 Flash | 3.1 Pro | 差分 |
|---|---|---|---|
| MCP Atlas | 83.6% | 78.2% | +5.4 |
| Toolathlon | 56.5% | 49.4% | +7.1 |
| OSWorld-Verified | 78.4% | 76.2% | +2.2 |
| Finance Agent v2 | 57.9% | 43.0% | +14.9 |
| GDPval-AA(ELO) | 1656 | 1314 | +342 |
Finance Agent v2で14.9ポイント、GDPval-AAで342 ELOという大幅な差は、エージェントシナリオでの劇的な性能向上を示している。
マルチモーダル・長コンテキスト
| ベンチマーク | 3.5 Flash | 3.1 Pro | 差分 |
|---|---|---|---|
| CharXiv Reasoning | 84.2% | 83.3% | +0.9 |
| MMMU-Pro | 83.6% | 80.5% | +3.1 |
| Blueprint-Bench 2 | 33.6% | 26.5% | +7.1 |
| MRCR v2 · 128k | 77.3% | 84.9% | -7.6 |
| MRCR v2 · 1M | 26.6% | 26.3% | +0.3 |
推論(Proが勝る領域)
| ベンチマーク | 3.5 Flash | 3.1 Pro | 差分 |
|---|---|---|---|
| Humanity's Last Exam | 40.2% | 44.4% | -4.2 |
| ARC-AGI-2 | 72.1% | 77.1% | -5.0 |
HLE(Humanity's Last Exam)とARC-AGI-2ではProが上回った。学術的な推論や抽象的な問題解決では、Pro依然として優位だ。
他のフロンティアモデルとの比較
Google DeepMindはClaude Sonnet 4.6、Claude Opus 4.7、GPT-5.5との比較評価カードも公開したが、具体的な数値はまだ公開されていない。ただし、Artificial Analysisのインテリジェンスインデックスで「右上象限」——Flashレイテンシでフロンティアインテリジェンス——に位置づけられている。
なぜ「エージェント特化」なのか
Gemini 3.5 Flashの設計で最も興味深い点は、エージェントワークロードに最適化されたモデルだということだ。
従来のモデル設計は「ベンチマークで高スコアを取る」ことが目的だった。しかしGemini 3.5 Flashは異なる問いを持っている:「エージェントが実際に使うツール呼び出し、コード実行、マルチステップ計画で、どれだけ効率的に動けるか」。
具体的な違い:
1. 速度。同等フロンティアモデルの4倍の出力速度。エージェントが何十ステップも実行する場合、各ステップのレイテンシが全体のボトルネックになる。Flashはこのボトルネックを根本的に解決する。
2. キャッシュコスト。エージェントは同じコンテキストを何度も読む。$0.15/1Mのキャッシュ入力価格は、エージェントのランニングコストを桁違いに下げる。
3. ツール呼び出しの精度。MCP Atlasで83.6%、Toolathlonで56.5%。複雑なツールチェーンでの成功率が高い。
4. サブエージェントオーケストレーション。単一のAPI呼び出しで完全な推論エージェントを作成できる。分離Linux環境でのコード実行、ファイル/状態の永続化、呼び出し間の環境継続をサポート。
エコシステム:Antigravity、Spark、Managed Agents
Gemini 3.5 Flashは単独のモデルではない。Googleは同時にエコシステム全体を発表した。
Antigravity 2.0
デスクトップスタンドアロンアプリ。並列サブエージェント実行、スケジュールされたバックグラウンドタスク、AI Studio/Android/Firebase統合を提供。3.5 Flashとの共同最適化済み。
Gemini Spark
3.5 Flashをベースにした24/7自律エージェント。ユーザーの代わりに行動する——メール処理、オンラインタスク実行、購入まで。発表日にトラステッドテスター向けに展開開始、翌週に米国のAI Ultra加入者向けベータ。
Managed Agents in the Gemini API
APIの単一呼び出しで完全な推論エージェントを作成。ツール利用とコード実行を分離Linux環境で実行。永続化された環境は呼び出し間でファイルと状態を維持。
実際のパートナー事例
| 企業 | 用途 |
|---|---|
| Shopify | 並列サブエージェントによる成長予測 |
| Macquarie Bank | 100ページ超の金融文書の推論 |
| Salesforce Agentforce | マルチサブエージェント企業タスク自動化 |
| Ramp | 請求書のマルチモーダルOCR+パターン推論 |
| Xero | 自律的マルチ週ワークフロー(1099準備等) |
| Databricks | 大規模データセットのエージェント監視・検索 |
Gemini 3.5 Proは来月
I/O 2026で発表されたのはFlashだが、Gemini 3.5 Proは来月(2026年6月)リリース予定だ。
コードネーム「Cappuccino」。リークによると、Flash版はコーディングと推論でGPT-5.5の92%の性能を、15〜20分の1のコストで達成している。Pro版はさらに性能が上がるとみられる。
内部ではすでにProが使われており、Googleは「フロンティアインテリジェンス」と位置づけている。
競合比較
2026年5月のフロンティアモデル比較:
| モデル | 入力/1M | 出力/1M | コンテキスト | 特徴 |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M | エージェント特化、最速 |
| GPT-5.2 | $1.25 | $10.00 | 256K | OpenAI主力 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 1M | コーディング強い |
| Claude Opus 4.7 | $5.00 | $25.00 | 200K | 最高性能クラス |
| DeepSeek V4 Pro | $0.44 | $0.87 | 1M | 最安 |
| MiniMax M2.5 | $0.15 | $1.15 | 200K | コーディング特化 |
Flashのポジションは明確だ:Opus 4.7やGPT-5.5に近い性能を、Sonnet 4.6より安く、4倍の速さで提供する。
特にエージェントワークロードでは、キャッシュ価格の90%割引が効いてくる。同じコンテキストを繰り返し読むエージェントのコストは、他のモデルの10分の1になる可能性がある。
課題と限界
推論性能の低下。HLEで40.2%(Proは44.4%)、ARC-AGI-2で72.1%(Proは77.1%)。学術的な推論や抽象的な問題解決では、FlashはProに劣る。これは設計上のトレードオフだ——速度とエージェント性能を優価し、深い推論を犠牲にした。
128Kコンテキストでのリコール低下。MRCR v2(128K)で77.3%(Proは84.9%)。長文の精密なリコールが必要なタスクでは、依然としてProが優位。
出力はテキストのみ。入力はテキスト・画像・音声・動画をサポートするが、出力はテキストのみ。画像生成や動画生成には対応しない。
まとめ
Gemini 3.5 Flashは、AIモデルの設計思想の転換を象徴している。
従来のモデルは「ベンチマークで最高スコアを取る」ことが目的だった。しかしFlashは異なる問いを持っている:「エージェントが実際に動く環境で、どれだけ速く、安く、正確に動けるか」。
これはGPT-5.5やClaude Opus 4.7とは異なる戦略だ。Googleは「最速のモデル」を作ったのではなく、「エージェントに最適化されたモデル」を作った。
来月のGemini 3.5 Proで、この戦略がどこまで通用するかが問われる。
読み込み中...