このモデルの強みは何ですか？

極めて長いコンテキスト窓高度な推論能力の実現 Google Deep Mind製

このモデルの弱みは何ですか？

クローズドソースのライセンスモデル内部の詳細が非公開利用条件に制限がある可能性

どんな用途に最適ですか？

大規模ドキュメントの解析複雑な論理推論タスク高度な対話型チャット利用

モデル一覧に戻る

Google Deep Mindプロプライエタリ

Gemini 2.5 Deep Think

Name: Gemini 2.5 Deep Think
Author: Google Deep Mind

Gemini 2.5 Deep Thinkは、Google Deep Mindが開発した推論モデルです。1000Kという非常に長いコンテキストウィンドウを備えたチャット特化型の基盤モデルとなっています。

パラメータ

非公開

コンテキスト長

1000K

ライセンス

プロプライエタリ

リリース日

2025-08-01

API料金

このモデルのAPI料金情報は現在未公開です

強み

・極めて長いコンテキスト窓
・高度な推論能力の実現
・Google Deep Mind製

弱み

・クローズドソースのライセンス
・モデル内部の詳細が非公開
・利用条件に制限がある可能性

活用例

・大規模ドキュメントの解析
・複雑な論理推論タスク
・高度な対話型チャット利用

深度分析

GPQAダイヤモンド

92%

PhD-level science reasoning, tops Claude 4.7 (88%) and GPT-5 (90%)

SWE-bench 検証済み

~78%

Coding benchmark, behind Claude 4.7 (~85%) and GPT-5 (~80%)

アリーナElo

~1465

Based on Gemini 2.5 Pro base, Deep Think adds extended reasoning

コンテキストウィンドウ

1M tokens

1,000,000 input tokens

入力価格

$1.25/M tokens

Cheapest frontier reasoning model at 1M-token scale

出力価格

$10.00/M tokens

Standard output pricing for reasoning tier

出力速度

~30 tok/s

Slower than GPT-5 (~110) and Claude 4.7 (~80) due to deep reasoning chains

リリース

April 2026 (GA)

全ての有料APIユーザーに開放（以前はAI Ultraのみ）

強み

・2026年5月時点でのフロンティアモデル中、GPQA Diamondスコア最高（92%）
・$1.25/1Mトークン入力で最も安価なフロンティア推論モデル
・100万トークンのコンテキスト、50万トークンでneedle-in-haystack 98%
・国際数学オリンピック金メダルレベル
・高いneedle-in-haystack検索性能（50万トークンで98%）

弱み

・拡張思考により出力速度が競合他社より遅い（約30トークン/秒）
・初回トークンまでの時間が約1.1秒で、GPT-5（0.4秒）およびClaude 4.7（0.6秒）より遅い
・コーディング性能が劣る（SWE-benchで78%、Claude 4.7は85%）
・コンピュータ使用/ブラウザ機能はまだ実験的
・Deep Thinkモードはより多くのコンピューティングリソースを必要とし、実効コストが増加

競合比較

Model	Arena	SWE	GPQA	Price
Claude 4.7 Sonnet	~1470	~85%	88%	$3/$15 per 1M
GPT-5	~1480	~80%	90%	$5/$20 per 1M
Gemini 2.5 Deep Think	~1465	~78%	92%	$1.25/$10 per 1M

概要

Model: gemini-2-5-deep-think Field: summary ジェミニ 2.5 Deep Thinkは、Gemini 2.5 Proをベースに構築されたGoogleの拡張推論モードで、2026年4月にすべての有料APIユーザーに開放されました。純粋な推論ベンチマーク（GPQA 92%、ARC-AGI）でリードしていますが、コーディングタスクではClaude 4.7およびGPT-5に後れを取っています。際立った利点は、フロンティア推論モデル中で最も低価格であること（入力トークン100万あたり1.25ドル）であり、100万のコンテキストウィンドウを備えている点です。

ベンチマーク＆性能

GPQA Diamondで92%を記録し首位に立ち、Tau-bench retail（82%）では競争力があるが、SWE-bench Verified（78%）とAider polyglot（71%）では後れを取っている。50万トークンのneedle-in-haystack検索で98%という成績はクラス最高。

詳細比較

純粋な推論と価格で勝る。コーディングではClaude 4.7に（SWE-benchで78%対85%）、速度ではGPT-5に（30 tok/s対110 tok/s）劣る。予算を意識した推論ワークロードと長文脈検索に最適な選択。

コミュニティ評価

推論タスクで高評価。開発者は価格を評価。リアルタイムチャットアプリケーションでのレイテンシーに不満もある。学術研究や数学を多用するワークロードで人気。

ユースケース

博士課程レベルの科学Q&A、数学的証明の検証、長文書分析（最大100万トークンまで）、および精度が速度より重要な研究タスクに最適。リアルタイムチャットや高スループットのコーディングエージェントには推奨されない。