ブログ一覧に戻る
Google

Gemini 3.5 Flash: Google I/O 2026で発表されたエージェント特化型フロンティアモデルの全貌

2026年5月19日、Google I/O 2026の基調講演で**Gemini 3.5 Flash**が発表された。

「フロンティアインテリジェンスをFlashレイテンシで」——これがGoogleのメッセージだ。安く、速い、しかし性能はフロンティア級。エージェントワークロードに最適化された、新しい種類のモデルである。

Gemini 3.5 Flashとは何か

Gemini 3.5 Flashは、Google DeepMindが開発したエージェント・コーディング特化型の大規模言語モデルだ。Gemini 3.5ファミリーの最初のモデルとして、I/O 2026で即日GA(一般利用開始)された。

APIモデルIDはgemini-3.5-flash(プレビューサフィックスなし)。内部バージョンは3.5-flash-05-2026。知識カットオフは2026年1月。

基本仕様:

項目スペック
最大入力1,048,576トークン(1M)
最大出力65,536トークン(64K)
入力モダリティテキスト、画像、音声、動画
出力モダリティテキストのみ
動的思考デフォルトで有効
速度同等フロンティアモデルの4倍

料金:フロンティアモデルの中で最も安い

ティア入力出力キャッシュ入力
グローバル$1.50/1M$9.00/1M$0.15/1M
非グローバル$1.65/1M$9.90/1M$0.165/1M

比較のために:

モデル入力/1M出力/1M
Gemini 3.5 Flash$1.50$9.00
Gemini 3.1 Pro$2.50$15.00
Claude Sonnet 4.6$3.00$15.00
GPT-5.2$1.25$10.00
Claude Opus 4.7$5.00$25.00

Gemini 3.1 Proと比べて入力40%安、出力40%安。そしてキャッシュ入力は$0.15/1M——通常価格の10分の1。エージェントが同じコンテキストを繰り返し読むケースでは、これが圧倒的なコスト優位になる。

Googleは「1分間に1ドルの収益を、コスト0.3ドル以下で生み出すモデル」と説明している。

ベンチマーク:エージェントとコーディングでProを凌駕

Gemini 3.5 Flashの設計思想は明確だ——学術的な推論ではなく、実世界のエージェントタスクで最高性能を出す

コーディング

ベンチマーク3.5 Flash3.1 Pro差分
Terminal-Bench 2.176.2%70.3%+5.9
SWE-Bench Pro(公開)55.1%54.2%+0.9

Terminal-Bench 2.1はターミナルベースのエージェントタスクを評価するベンチマークで、Flashが6ポイント近い差をつけた。

エージェント・ツール利用

ベンチマーク3.5 Flash3.1 Pro差分
MCP Atlas83.6%78.2%+5.4
Toolathlon56.5%49.4%+7.1
OSWorld-Verified78.4%76.2%+2.2
Finance Agent v257.9%43.0%+14.9
GDPval-AA(ELO)16561314+342

Finance Agent v2で14.9ポイント、GDPval-AAで342 ELOという大幅な差は、エージェントシナリオでの劇的な性能向上を示している。

マルチモーダル・長コンテキスト

ベンチマーク3.5 Flash3.1 Pro差分
CharXiv Reasoning84.2%83.3%+0.9
MMMU-Pro83.6%80.5%+3.1
Blueprint-Bench 233.6%26.5%+7.1
MRCR v2 · 128k77.3%84.9%-7.6
MRCR v2 · 1M26.6%26.3%+0.3

推論(Proが勝る領域)

ベンチマーク3.5 Flash3.1 Pro差分
Humanity's Last Exam40.2%44.4%-4.2
ARC-AGI-272.1%77.1%-5.0

HLE(Humanity's Last Exam)とARC-AGI-2ではProが上回った。学術的な推論や抽象的な問題解決では、Pro依然として優位だ。

他のフロンティアモデルとの比較

Google DeepMindはClaude Sonnet 4.6Claude Opus 4.7GPT-5.5との比較評価カードも公開したが、具体的な数値はまだ公開されていない。ただし、Artificial Analysisのインテリジェンスインデックスで「右上象限」——Flashレイテンシでフロンティアインテリジェンス——に位置づけられている。

なぜ「エージェント特化」なのか

Gemini 3.5 Flashの設計で最も興味深い点は、エージェントワークロードに最適化されたモデルだということだ。

従来のモデル設計は「ベンチマークで高スコアを取る」ことが目的だった。しかしGemini 3.5 Flashは異なる問いを持っている:「エージェントが実際に使うツール呼び出し、コード実行、マルチステップ計画で、どれだけ効率的に動けるか」

具体的な違い:

1. 速度。同等フロンティアモデルの4倍の出力速度。エージェントが何十ステップも実行する場合、各ステップのレイテンシが全体のボトルネックになる。Flashはこのボトルネックを根本的に解決する。

2. キャッシュコスト。エージェントは同じコンテキストを何度も読む。$0.15/1Mのキャッシュ入力価格は、エージェントのランニングコストを桁違いに下げる。

3. ツール呼び出しの精度。MCP Atlasで83.6%、Toolathlonで56.5%。複雑なツールチェーンでの成功率が高い。

4. サブエージェントオーケストレーション。単一のAPI呼び出しで完全な推論エージェントを作成できる。分離Linux環境でのコード実行、ファイル/状態の永続化、呼び出し間の環境継続をサポート。

エコシステム:Antigravity、Spark、Managed Agents

Gemini 3.5 Flashは単独のモデルではない。Googleは同時にエコシステム全体を発表した。

Antigravity 2.0

デスクトップスタンドアロンアプリ。並列サブエージェント実行、スケジュールされたバックグラウンドタスク、AI Studio/Android/Firebase統合を提供。3.5 Flashとの共同最適化済み。

Gemini Spark

3.5 Flashをベースにした24/7自律エージェント。ユーザーの代わりに行動する——メール処理、オンラインタスク実行、購入まで。発表日にトラステッドテスター向けに展開開始、翌週に米国のAI Ultra加入者向けベータ。

Managed Agents in the Gemini API

APIの単一呼び出しで完全な推論エージェントを作成。ツール利用とコード実行を分離Linux環境で実行。永続化された環境は呼び出し間でファイルと状態を維持。

実際のパートナー事例

企業用途
Shopify並列サブエージェントによる成長予測
Macquarie Bank100ページ超の金融文書の推論
Salesforce Agentforceマルチサブエージェント企業タスク自動化
Ramp請求書のマルチモーダルOCR+パターン推論
Xero自律的マルチ週ワークフロー(1099準備等)
Databricks大規模データセットのエージェント監視・検索

Gemini 3.5 Proは来月

I/O 2026で発表されたのはFlashだが、Gemini 3.5 Proは来月(2026年6月)リリース予定だ。

コードネーム「Cappuccino」。リークによると、Flash版はコーディングと推論でGPT-5.5の92%の性能を、15〜20分の1のコストで達成している。Pro版はさらに性能が上がるとみられる。

内部ではすでにProが使われており、Googleは「フロンティアインテリジェンス」と位置づけている。

競合比較

2026年5月のフロンティアモデル比較:

モデル入力/1M出力/1Mコンテキスト特徴
Gemini 3.5 Flash$1.50$9.001Mエージェント特化、最速
GPT-5.2$1.25$10.00256KOpenAI主力
Claude Sonnet 4.6$3.00$15.001Mコーディング強い
Claude Opus 4.7$5.00$25.00200K最高性能クラス
DeepSeek V4 Pro$0.44$0.871M最安
MiniMax M2.5$0.15$1.15200Kコーディング特化

Flashのポジションは明確だ:Opus 4.7やGPT-5.5に近い性能を、Sonnet 4.6より安く、4倍の速さで提供する

特にエージェントワークロードでは、キャッシュ価格の90%割引が効いてくる。同じコンテキストを繰り返し読むエージェントのコストは、他のモデルの10分の1になる可能性がある。

課題と限界

推論性能の低下。HLEで40.2%(Proは44.4%)、ARC-AGI-2で72.1%(Proは77.1%)。学術的な推論や抽象的な問題解決では、FlashはProに劣る。これは設計上のトレードオフだ——速度とエージェント性能を優価し、深い推論を犠牲にした。

128Kコンテキストでのリコール低下。MRCR v2(128K)で77.3%(Proは84.9%)。長文の精密なリコールが必要なタスクでは、依然としてProが優位。

出力はテキストのみ。入力はテキスト・画像・音声・動画をサポートするが、出力はテキストのみ。画像生成や動画生成には対応しない。

まとめ

Gemini 3.5 Flashは、AIモデルの設計思想の転換を象徴している。

従来のモデルは「ベンチマークで最高スコアを取る」ことが目的だった。しかしFlashは異なる問いを持っている:「エージェントが実際に動く環境で、どれだけ速く、安く、正確に動けるか」

これはGPT-5.5Claude Opus 4.7とは異なる戦略だ。Googleは「最速のモデル」を作ったのではなく、「エージェントに最適化されたモデル」を作った。

来月のGemini 3.5 Proで、この戦略がどこまで通用するかが問われる。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...