Google2026-05-26

Gemini 3.5 Flash: Google I/O 2026で発表されたエージェント特化型フロンティアモデルの全貌

2026年5月19日、Google I/O 2026の基調講演で**Gemini 3.5 Flash**が発表された。

「フロンティアインテリジェンスをFlashレイテンシで」——これがGoogleのメッセージだ。安く、速い、しかし性能はフロンティア級。エージェントワークロードに最適化された、新しい種類のモデルである。

Gemini 3.5 Flashとは何か

Gemini 3.5 Flashは、Google DeepMindが開発したエージェント・コーディング特化型の大規模言語モデルだ。Gemini 3.5ファミリーの最初のモデルとして、I/O 2026で即日GA（一般利用開始）された。

APIモデルIDはgemini-3.5-flash（プレビューサフィックスなし）。内部バージョンは3.5-flash-05-2026。知識カットオフは2026年1月。

基本仕様：

項目	スペック
最大入力	1,048,576トークン（1M）
最大出力	65,536トークン（64K）
入力モダリティ	テキスト、画像、音声、動画
出力モダリティ	テキストのみ
動的思考	デフォルトで有効
速度	同等フロンティアモデルの4倍

料金：フロンティアモデルの中で最も安い

ティア	入力	出力	キャッシュ入力
グローバル	$1.50/1M	$9.00/1M	$0.15/1M
非グローバル	$1.65/1M	$9.90/1M	$0.165/1M

比較のために：

モデル	入力/1M	出力/1M
Gemini 3.5 Flash	$1.50	$9.00
Gemini 3.1 Pro	$2.50	$15.00
Claude Sonnet 4.6	$3.00	$15.00
GPT-5.2	$1.25	$10.00
Claude Opus 4.7	$5.00	$25.00

Gemini 3.1 Proと比べて入力40%安、出力40%安。そしてキャッシュ入力は$0.15/1M——通常価格の10分の1。エージェントが同じコンテキストを繰り返し読むケースでは、これが圧倒的なコスト優位になる。

Googleは「1分間に1ドルの収益を、コスト0.3ドル以下で生み出すモデル」と説明している。

ベンチマーク：エージェントとコーディングでProを凌駕

Gemini 3.5 Flashの設計思想は明確だ——学術的な推論ではなく、実世界のエージェントタスクで最高性能を出す。

コーディング

ベンチマーク	3.5 Flash	3.1 Pro	差分
Terminal-Bench 2.1	76.2%	70.3%	+5.9
SWE-Bench Pro（公開）	55.1%	54.2%	+0.9

Terminal-Bench 2.1はターミナルベースのエージェントタスクを評価するベンチマークで、Flashが6ポイント近い差をつけた。

エージェント・ツール利用

ベンチマーク	3.5 Flash	3.1 Pro	差分
MCP Atlas	83.6%	78.2%	+5.4
Toolathlon	56.5%	49.4%	+7.1
OSWorld-Verified	78.4%	76.2%	+2.2
Finance Agent v2	57.9%	43.0%	+14.9
GDPval-AA（ELO）	1656	1314	+342

Finance Agent v2で14.9ポイント、GDPval-AAで342 ELOという大幅な差は、エージェントシナリオでの劇的な性能向上を示している。

マルチモーダル・長コンテキスト

ベンチマーク	3.5 Flash	3.1 Pro	差分
CharXiv Reasoning	84.2%	83.3%	+0.9
MMMU-Pro	83.6%	80.5%	+3.1
Blueprint-Bench 2	33.6%	26.5%	+7.1
MRCR v2 · 128k	77.3%	84.9%	-7.6
MRCR v2 · 1M	26.6%	26.3%	+0.3

推論（Proが勝る領域）

ベンチマーク	3.5 Flash	3.1 Pro	差分
Humanity's Last Exam	40.2%	44.4%	-4.2
ARC-AGI-2	72.1%	77.1%	-5.0

HLE（Humanity's Last Exam）とARC-AGI-2ではProが上回った。学術的な推論や抽象的な問題解決では、Pro依然として優位だ。

他のフロンティアモデルとの比較

Google DeepMindはClaude Sonnet 4.6、Claude Opus 4.7、GPT-5.5との比較評価カードも公開したが、具体的な数値はまだ公開されていない。ただし、Artificial Analysisのインテリジェンスインデックスで「右上象限」——Flashレイテンシでフロンティアインテリジェンス——に位置づけられている。

なぜ「エージェント特化」なのか

Gemini 3.5 Flashの設計で最も興味深い点は、エージェントワークロードに最適化されたモデルだということだ。

従来のモデル設計は「ベンチマークで高スコアを取る」ことが目的だった。しかしGemini 3.5 Flashは異なる問いを持っている：「エージェントが実際に使うツール呼び出し、コード実行、マルチステップ計画で、どれだけ効率的に動けるか」。

具体的な違い：

1. 速度。同等フロンティアモデルの4倍の出力速度。エージェントが何十ステップも実行する場合、各ステップのレイテンシが全体のボトルネックになる。Flashはこのボトルネックを根本的に解決する。

2. キャッシュコスト。エージェントは同じコンテキストを何度も読む。$0.15/1Mのキャッシュ入力価格は、エージェントのランニングコストを桁違いに下げる。

3. ツール呼び出しの精度。MCP Atlasで83.6%、Toolathlonで56.5%。複雑なツールチェーンでの成功率が高い。

4. サブエージェントオーケストレーション。単一のAPI呼び出しで完全な推論エージェントを作成できる。分離Linux環境でのコード実行、ファイル/状態の永続化、呼び出し間の環境継続をサポート。

エコシステム：Antigravity、Spark、Managed Agents

Gemini 3.5 Flashは単独のモデルではない。Googleは同時にエコシステム全体を発表した。

Antigravity 2.0

デスクトップスタンドアロンアプリ。並列サブエージェント実行、スケジュールされたバックグラウンドタスク、AI Studio/Android/Firebase統合を提供。3.5 Flashとの共同最適化済み。

Gemini Spark

3.5 Flashをベースにした24/7自律エージェント。ユーザーの代わりに行動する——メール処理、オンラインタスク実行、購入まで。発表日にトラステッドテスター向けに展開開始、翌週に米国のAI Ultra加入者向けベータ。

Managed Agents in the Gemini API

APIの単一呼び出しで完全な推論エージェントを作成。ツール利用とコード実行を分離Linux環境で実行。永続化された環境は呼び出し間でファイルと状態を維持。

実際のパートナー事例

企業	用途
Shopify	並列サブエージェントによる成長予測
Macquarie Bank	100ページ超の金融文書の推論
Salesforce Agentforce	マルチサブエージェント企業タスク自動化
Ramp	請求書のマルチモーダルOCR＋パターン推論
Xero	自律的マルチ週ワークフロー（1099準備等）
Databricks	大規模データセットのエージェント監視・検索

Gemini 3.5 Proは来月

I/O 2026で発表されたのはFlashだが、Gemini 3.5 Proは来月（2026年6月）リリース予定だ。

コードネーム「Cappuccino」。リークによると、Flash版はコーディングと推論でGPT-5.5の92%の性能を、15〜20分の1のコストで達成している。Pro版はさらに性能が上がるとみられる。

内部ではすでにProが使われており、Googleは「フロンティアインテリジェンス」と位置づけている。

競合比較

2026年5月のフロンティアモデル比較：

モデル	入力/1M	出力/1M	コンテキスト	特徴
Gemini 3.5 Flash	$1.50	$9.00	1M	エージェント特化、最速
GPT-5.2	$1.25	$10.00	256K	OpenAI主力
Claude Sonnet 4.6	$3.00	$15.00	1M	コーディング強い
Claude Opus 4.7	$5.00	$25.00	200K	最高性能クラス
DeepSeek V4 Pro	$0.44	$0.87	1M	最安
MiniMax M2.5	$0.15	$1.15	200K	コーディング特化

Flashのポジションは明確だ：Opus 4.7やGPT-5.5に近い性能を、Sonnet 4.6より安く、4倍の速さで提供する。

特にエージェントワークロードでは、キャッシュ価格の90%割引が効いてくる。同じコンテキストを繰り返し読むエージェントのコストは、他のモデルの10分の1になる可能性がある。

課題と限界

推論性能の低下。HLEで40.2%（Proは44.4%）、ARC-AGI-2で72.1%（Proは77.1%）。学術的な推論や抽象的な問題解決では、FlashはProに劣る。これは設計上のトレードオフだ——速度とエージェント性能を優価し、深い推論を犠牲にした。

128Kコンテキストでのリコール低下。MRCR v2（128K）で77.3%（Proは84.9%）。長文の精密なリコールが必要なタスクでは、依然としてProが優位。

出力はテキストのみ。入力はテキスト・画像・音声・動画をサポートするが、出力はテキストのみ。画像生成や動画生成には対応しない。

まとめ

Gemini 3.5 Flashは、AIモデルの設計思想の転換を象徴している。

従来のモデルは「ベンチマークで最高スコアを取る」ことが目的だった。しかしFlashは異なる問いを持っている：「エージェントが実際に動く環境で、どれだけ速く、安く、正確に動けるか」。

これはGPT-5.5やClaude Opus 4.7とは異なる戦略だ。Googleは「最速のモデル」を作ったのではなく、「エージェントに最適化されたモデル」を作った。

来月のGemini 3.5 Proで、この戦略がどこまで通用するかが問われる。

Google Workspaceに「Gemini Spark」が登場：AIアシスタントから「AIエージェント」への転換点
[Google I/O 2026詳解：Gemini 3.5 Flashと「Agentic Gemini era」がもたらすAIエージェントへの転換点](/blog/google-io-2026gemini-35-flashagentic-gemini-eraai)
【2026年5月版】主要AIモデルAPI料金の完全比較一覧

コメント (0)

シェア:X はてブ

読み込み中...

ブログ一覧に戻る