このモデルの強みは何ですか？

高度なマルチモーダル対応 100万トークンの長大な文脈 Google DeepMindによる開発

このモデルの弱みは何ですか？

クローズドソースのライセンスプレビュー版による不安定さ詳細な性能指標の不足

どんな用途に最適ですか？

大規模文書の解析と要約複雑なマルチモーダル処理長文コンテキストの活用

モデル一覧に戻る

Google Deep Mindプロプライエタリ

Gemini 3.1 Pro Preview

Name: Gemini 3.1 Pro Preview
Price: 3.6 USD
Author: Google Deep Mind

Gemini 3.1 Pro Previewは、Google DeepMindが開発したマルチモーダル基盤モデルです。100万トークンの広大なコンテキストウィンドウを備えています。

パラメータ

非公開

コンテキスト長

ライセンス

プロプライエタリ

リリース日

2026-02-20

API料金

入力料金（1Mトークンあたり）

$3.6

出力料金（1Mトークンあたり）

$21.6

課金モード: standard

強み

・高度なマルチモーダル対応
・100万トークンの長大な文脈
・Google DeepMindによる開発

弱み

・クローズドソースのライセンス
・プレビュー版による不安定さ
・詳細な性能指標の不足

活用例

・大規模文書の解析と要約
・複雑なマルチモーダル処理
・長文コンテキストの活用

深度分析

Arena Elo

~1493

総合3位（2026年4月）、Claude Opus 4.6 (1504) に次ぐ

SWE-Bench Verified

80.6%

対Claude Opus 4.6: 80.8% (差0.2ポイント)

GPQA Diamond

94.3%

対GPT-5.4: 92.0% (現リーダー)

ARC-AGI-2

77.1%

Gemini 3 Pro (31.1%) の2.5倍の向上

入力価格

$2/1M

200k以下のコンテキストで、最も安価なフロンティアモデル

コンテキストウィンドウ

1Mトークン

出力64K、コードベース全体をサポート

強み

・競合モデルの一部のコスト（Claude Opus 4.6の最大推論時と比較して64%安価）で、推論およびマルチモーダルベンチマークにおいてトップを維持。
・巨大な100万トークンコンテキストウィンドウにより、単一リクエストでコードベースや長文ドキュメント全体の分析が可能。
・BrowseCompで45%向上し、ツール集約型ワークフロー向けの専用customtoolsエンドポイントにより、エージェント能力が大幅に改善。

弱み

・純粋なコーディング精度ではClaude Opus 4.6にわずかに及ばない（SWE-Bench 80.6% vs 80.8%）。
・プレビュー版であるため、本番環境SLAの保証がなく、GA前にAPIの挙動が変更される可能性がある。
・一部の競合よりレイテンシが高く、間違っている場合により確信度が高い（Humanity's Last Examの較正誤差: Gemini 51 vs GPT-5.4 38）。

競合比較

Model	Arena	SWE	GPQA	Price
Claude Opus 4.6	~1504	80.8%	89.6%	$5/$25 per 1M tokens
GPT-5.4	~1484	~80%	92.0%	$2.50/$15 per 1M tokens
DeepSeek R2	~1441	62.1%	82.4%	$0.55/$2.19 per 1M tokens

概要

Gemini 3.1 Pro Previewは、Google DeepMindの最新フラッグシップマルチモーダル推論モデルであり、2026年2月にGemini 3シリーズの反復的アップグレードとしてローンチされました。これはコア推論能力の大幅な進歩を示しつつ、攻撃的な価格設定を維持し、Googleをコスト効率の高いフロンティアAIのリーダーとして位置づけています。本モデルは、巨大な100万トークンコンテキストウィンドウ、テキスト、画像、音声、ビデオ、コードにまたがるネイティブマルチモーダル理解を特徴とし、特に複雑なエージェントワークフロー、高度なコーディング、長コンテキスト分析向けに最適化されています。本モデルは、複数のベンチマークにおいて最先端または最先端に近いパフォーマンスを達成し、GPQA Diamond（94.3%）、ARC-AGI-2（77.1%）、Humanity's Last Exam（44.4%、ツールなし）でトップに立っています。Artificial Analysis Intelligence Indexでは57ポイントのスコアでGPT-5.4と並び、評価スイート全体の実行コストは半分以下です。前任者に対する主要な改善点には、抽象的推論（ARC-AGI-2）で2.5倍、検索能力（BrowseComp）で45%向上、ターミナルコーディング（Terminal-Bench 2.0）で20%向上が含まれます。現在プレビューステータスにあるGemini 3.1 Proは、Gemini API、Vertex AI、Google AI Studio、およびGeminiアプリやNotebookLMなどの消費者製品を含むGoogleエコシステム全体で利用可能です。その価格構造により、200k以下のコンテキストの場合、入力コストが百万トークンあたり2ドルと、最もコスト効率の高いフロンティアモデルとなり、Claude Opus 4.6（$5/$25）などの競合と比較して大幅に安価でありながら、ほとんどのベンチマークで同等または優れたパフォーマンスを提供します。本モデルは、フロンティア能力を手の届く価格で提供するというGoogleの戦略を体現していますが、プレビューステータスであるため、開発者は本番環境にデプロイする前にパフォーマンスを検証する必要があります。

ベンチマーク＆性能

Gemini 3.1 Proは、推論、コーディング、マルチモーダルのベンチマーク全体で強力なパフォーマンスを示しています。公式および独立した評価からの主要なベンチマーク比較を以下に示します。 | ベンチマーク | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.4 | 備考 | |-------------|----------------|-----------------|---------|-------| | ARC-AGI-2（抽象的推論） | 77.1% | 68.8% | 未公開 | Claudeを8.3ポイントリード | | GPQA Diamond（科学的推論） | 94.3% | 89.6% (Thinking) | 92.0% | 最高の公開スコア、GPT-5.4を2.3ポイントリード | | SWE-Bench Verified（コーディング） | 80.6% | 80.8% | ~80% | Claudeとほぼ同値、わずかにリード | | Humanity's Last Exam（推論） | 44.4%（ツールなし） | 34.44%（Thinking Max） | 44.32%（Pro） | Claudeを9.96ポイントリード | | MMMLU（多言語知識） | 92.6% | 91.1% | 89.6% | 強力な多言語能力 | | Terminal-Bench 2.0（エージェントコーディング） | 68.5% | 65.4% | 54.0% | Claudeを3.1ポイントリード | | LiveCodeBench Pro（競技プログラミング） | Elo 2887 | 未公開 | Elo 2393 | 競技コーディングで大幅リード | | BrowseComp（エージェント検索） | 85.9% | 84.0% | 65.8% | Claudeを1.9ポイントリード | | MMMU-Pro（マルチモーダル推論） | 80.5% | 73.9% | 79.5% | GPT-5.4を1.0ポイントリード | | Artificial Analysis Intelligence Index | 57 | 53 | 57 | GPT-5.4と同率、Claudeを4ポイントリード | | LMArena Elo（人間の嗜好） | ~1493（2026年4月） | ~1504 | ~1484 | 総合3位、Claudeに11 Elo及ばず | 本モデルは、特に推論タスク（ARC-AGI-2、HLE）とマルチモーダル理解（MMMU-Pro、VideoMME 87.2%）で強さを示しています。前任者に対する最大の改善点は、抽象的推論（ARC-AGI-2: 31.1% → 77.1%）と検索能力（BrowseComp: 59.2% → 85.9%）にあります。

詳細比較

## 主要競合との直接比較 ### Claude Opus 4.6 - **価格**: Gemini 3.1 Pro ($2/$12 per 1M tokens) vs Claude Opus 4.6 ($5/$25) - Geminiは入力で2.5倍、出力で2.08倍安価。 - **コンテキストウィンドウ**: 両方とも100万トークンをサポートするが、Geminiはスケールでも完全な能力を維持する一方、Claudeは一部のタスクで200kを超えるとパフォーマンスが低下。 - **強み**: Geminiは推論ベンチマーク（HLE、GPQA、ARC-AGI-2）でリードし、コストが大幅に低い。Claudeは純粋なコーディング精度（SWE-Bench 80.8% vs 80.6%）とより高い人間の嗜好スコア（LMArena Elo 1504 vs 1493）でわずかな優位を維持。 - **弱み**: Geminiのプレビューステータスは本番SLAの保証なし。Claudeの価格設定はコスト感度の高いアプリケーションを制限。 ### GPT-5.4 - **価格**: Gemini ($2/$12) vs GPT-5.4 ($2.50/$15) - Geminiは入力と出力の両方で20%安価。 - **コンテキストウィンドウ**: 両方とも100万トークンをサポートするが、Geminiは長コンテキストの検索精度で優位（RULER 93.4% vs GPT-5.4は未指定）。 - **強み**: Geminiは科学的推論（GPQA 94.3% vs 92.0%）とマルチモーダルタスクでリード。GPT-5.4はより成熟した本番デプロイメントオプションと、おそらくより良い較正を持つ。 - **弱み**: Geminiは較正誤差が高い（間違っている場合により確信度が高い）。GPT-5.4はより広範なエコシステム統合を持つ可能性。 ### DeepSeek R2 - **価格**: Gemini ($2/$12) vs DeepSeek R2 ($0.55/$2.19) - DeepSeekは入力で73%、出力で82%安価。 - **コンテキストウィンドウ**: Gemini 100万 vs DeepSeek 12.8万 - Geminiは8倍大きなコンテキストウィンドウ。 - **強み**: DeepSeekは純粋な数学（AIME 2025: 93.8% vs 91.2%）でリードし、大幅に安価。Geminiは優れたマルチモーダル能力（ビデオ/画像/音声をサポート）と遥かに大きなコンテキストを持つ。 - **弱み**: DeepSeekはテキストのみで、マルチモーダル理解を欠く。Geminiは純粋な数学アプリケーションにはより高価。 ## 価格比較表 | モデル | 入力価格（≤200k） | 出力価格（≤200k） | コンテキストウィンドウ | 1000万トークン/日のコスト | |-------|-------------------|---------------------|------------------------|--------------------------| | Gemini 3.1 Pro | $2.00/1M | $12.00/1M | 100万トークン | ~$56/日 | | Claude Opus 4.6 | $5.00/1M | $25.00/1M | 100万トークン | ~$450/日 | | GPT-5.4 | $2.50/1M | $15.00/1M | 100万トークン | ~$200/日 | | DeepSeek R2 | $0.55/1M | $2.19/1M | 12.8万トークン | ~$14/日 |

コミュニティ評価

開発者や研究者は、Gemini 3.1 Proのコスト対パフォーマンス比に前向きな反応を示しており、コスト感度の高いアプリケーションのゲームチェンジャーとして注目する声が多いです。Artificial Analysisコミュニティでは、「Gemini 3.1 Pro Previewは2026年2月時点で利用可能な最も強力な汎用モデル」であり、「フロンティア能力を維持しつつすべての競合より価格を下回っている」と指摘されています。開発者フォーラムやソーシャルメディアでは、以下の点が主要な議論のテーマとなっています。 - **コスト効率**: Claude Opus 4.6の最大推論時と比較した64%のコスト削減は、最も説得力のある特徴として頻繁に引用され、開発者は大規模化での大幅な節約を計算しています。 - **プレビューに関する懸念**: 多くのエンタープライズ開発者は、本番環境でのプレビューモデルの採用に慎重姿勢を示しており、SLAの欠如とAPIの変更の可能性を指摘しています。 - **ベンチマークへの懸念**: 一部の研究者は、特にHumanity's Last Examでモデルの較正誤差が高いことを考慮し、ベンチマークのリーダーシップが現実世界のパフォーマンスに直結するかどうかに疑問を呈しています。 - **移行の容易さ**: 以前のGemini 3 Proユーザーは、主な変更点がモデル識別子を `gemini-3-pro-preview` から `gemini-3-1-pro-preview` に更新するだけであったため、スムーズな移行を報告しています。 JetBrains AIディレクターのフィードバック、特に出力効率が15%向上したという指摘は、開発者コミュニティで特に大きな影響力があり、多くのチームがトークン使用量の同様の改善を報告しています。全体的なセンチメントは、Gemini 3.1 ProがフロンティアAI能力をよりアクセシブルにするための有意義な一歩であるものの、本番採用はおそらくGAリリースを待つであろうということです。

ユースケース

## 1. エージェント型コーディングワークフロー **例**: 自動化されたコードレビューとPR生成。Gemini 3.1 ProのSWE-Bench Verifiedのパフォーマンス（80.6%）と専用の`customtools`エンドポイントの組み合わせは、リポジトリのナビゲート、ファイルの読み取り、パッチ生成が必要な自律コーディングエージェントに最適です。 **代替案より選ぶ理由**: 百万トークンあたり$2/$12という価格で、コーディング精度で0.2ポイントしか遅れていながら、Claude Opus 4.6の2.5倍安価です。大量のコーディングエージェントを運用する予算制約のあるチームにとって、このコスト差は決定的です。 ## 2. 長コンテキストドキュメント分析 **例**: 800kトークンのドキュメントセットにわたる法的契約の分析。100万トークンのコンテキストウィンドウにより、Claudeの200k制限で必要なチャンク化と検索エンジニアリングが不要になります。 **代替案より選ぶ理由**: Claudeがチャンクごとの精度がわずかに高い場合でも、Geminiのネイティブな長コンテキスト能力はシステムの複雑さを軽減し、ドキュメント分割による情報の損失を回避します。 ## 3. マルチモーダル研究の統合 **例**: ビデオチュートリアル、研究論文、コードリポジトリを同時に分析。Geminiのネイティブなビデオ理解（VideoMME 87.2%）と100万トークンのコンテキストウィンドウにより、単一セッションで研究ワークフロー全体を処理できます。 **代替案より選ぶ理由**: GPT-5.4とClaudeは同等のビデオ理解能力を欠きます。DeepSeek R2はテキストのみです。この価格帯でのGeminiのマルチモーダル統合は唯一無二の包括的なものです。 ## 4. コスト感度の高いエンタープライズデプロイメント **例**: 月間数百万クエリを処理するカスタマーサポートの自動化。$2/$12の価格設定により、Claude Opus 4.6と比較して64%低いコストでフロンティアAI能力を運用できます。 **代替案より選ぶ理由**: 推論品質が全体的に「十分に良い」アプリケーションにとって、Geminiのコストパフォーマンス比は並ぶものがあります。節約された資金は、大幅な追加インフラや機能の開発に充当できます。

最新ニュース

## 2026年2月ローンチ - **2026年2月19日**: Gemini 3.1 Pro Previewが正式にローンチされ、Gemini API、Vertex AI、Google AI Studio、および消費者製品（Geminiアプリ、NotebookLM）で即座に利用可能に。 - **プレビューステータス**: Googleは、GAに先立って「アップデートを検証し、エージェントワークフローを改良する」ためのプレビューリリースと明示的に位置づけています。本番SLAはまだコミットされていません。 - **価格構造**: Gemini 3 Proと同じ価格を維持（200k以下のコンテキストで百万トークンあたり$2/$12、200k超で倍額）。バッチ価格は$1/$6で利用可能です。 ## 主要な技術的アップデート - **新機能**: Googleマップのグラウンディングサポート、YouTube URLの直接パススルー、ツール集約型エージェント向けの専用`gemini-3-1-pro-preview-customtools`エンドポイントを追加。 - **パフォーマンスの向上**: 推論（ARC-AGI-2: 31.1% → 77.1%）、検索（BrowseComp: 59.2% → 85.9%）、コーディング（Terminal-Bench 2.0: 56.9% → 68.5%）で大幅な向上。 - **安全プロファイル**: CBRN、サイバー、有害な操作、ML R&D、およびアライメントのずれの分野において、フロンティア安全フレームワークの重要な能力閾値を下回るレベルを維持。 ## エコシステム統合 - **Gemini 3 Proの廃止**: Googleは`gemini-3-pro-preview`を廃止し（2026年3月9日シャットダウン）、3.1 Proへの移行を推奨。 - **消費者向け展開**: GeminiアプリとNotebookLMで、Google AI ProおよびUltraサブスクリプション層向けに、より高い制限値で展開中。 - **開発者ツール**: Gemini CLI、Google Antigravity（エージェント開発プラットフォーム）、Android Studioで利用可能。 ## 今後の開発 - Googleの過去のプレビュータイムラインに基づき、6〜12週間以内にGAが予想されます。 - GAリリース時に潜在的な価格調整の可能性あり。Googleは主要モデル世代間で価格を調整してきた実績があります。 - 本番リリース前に、構造化出力の信頼性と較正精度のさらなる改善が期待されます。

本モデルは、複数のベンチマークにおいて最先端または最先端に近いパフォーマンスを達成し、GPQA Diamond（94.3%）、ARC-AGI-2（77.1%）、Humanity's Last Exam（44.4%、ツールなし）でトップに立っています。Artificial Analysis Intelligence Indexでは57ポイントのスコアでGPT-5.4と並び、評価スイート全体の実行コストは半分以下です。前任者に対する主要な改善点には、抽象的推論（ARC-AGI-2）で2.5倍、検索能力（BrowseComp）で45%向上、ターミナルコーディング（Terminal-Bench 2.0）で20%向上が含まれます。

現在プレビューステータスにあるGemini 3.1 Proは、Gemini API、Vertex AI、Google AI Studio、およびGeminiアプリやNotebookLMなどの消費者製品を含むGoogleエコシステム全体で利用可能です。その価格構造により、200k以下のコンテキストの場合、入力コストが百万トークンあたり2ドルと、最もコスト効率の高いフロンティアモデルとなり、Claude Opus 4.6（$5/$25）などの競合と比較して大幅に安価でありながら、ほとんどのベンチマークで同等または優れたパフォーマンスを提供します。本モデルは、フロンティア能力を手の届く価格で提供するというGoogleの戦略を体現していますが、プレビューステータスであるため、開発者は本番環境にデプロイする前にパフォーマンスを検証する必要があります。

出典

分析生成日: 2026-05-23