このモデルの強みは何ですか？

汎用性が高い 256Kの長文コンテキスト Instant版で高速・低コストエコシステムが充実

このモデルの弱みは何ですか？

Pro版は高額オープンソースではない日本語処理は専用モデルに劣る場合がある

どんな用途に最適ですか？

汎用的なテキスト生成コーディング支援長文の要約・分析チャットボット

モデル一覧に戻る

OpenAIプロプライエタリ

GPT-5.2

Name: GPT-5.2
Price: 1.25 USD
Author: OpenAI

OpenAIの主力汎用モデル。前世代GPT-5.1から推論・コーディング性能を大幅に向上させた。256Kトークンのコンテキストウィンドウをサポートし、幅広いタスクで安定した高性能を発揮する。

パラメータ

非公開

コンテキスト長

256K

ライセンス

プロプライエタリ

リリース日

2026-04-20

日本語性能

✅高品質日本語

多言語対応モデルのうち、日本語処理に優れた性能を持つモデル。

API料金

入力料金（1Mトークンあたり）

$1.25

出力料金（1Mトークンあたり）

$10

課金モード: standard

強み

・汎用性が高い
・256Kの長文コンテキスト
・Instant版で高速・低コスト
・エコシステムが充実

弱み

・Pro版は高額
・オープンソースではない
・日本語処理は専用モデルに劣る場合がある

活用例

・汎用的なテキスト生成
・コーディング支援
・長文の要約・分析
・チャットボット

深度分析

Arena Elo (テキスト)

1436

BenchLM 仮定リーダーボードで117モデル中 #21

GPQA Diamond

92.4%

知識カテゴリで #6； Gemini 3 Pro と比較: 91.9%

SWE-Bench Verified

80.0%

Claude Opus 4.5 と比較: 80.9% (実質的に同率)

GDPval (知識労働)

70.9%

44職業のベンチマークで人間の専門家を初めて上回ったモデル

コンテキストウィンドウ

400Kトークン

MRCRv2 で 256K までほぼ100%の一貫性を維持

API 料金

$1.75/$14 (100万トークンあたり)

GPT-5.1 に比べ40%増；キャッシュ入力は90%割引

強み

・専門知識業務で最高の性能 — GDPval で44職業にわたり人間の専門家を初めて上回る (70.9%)
・優れた長文脈の整合性。MRCRv2 で256Kトークンまでほぼ完璧な精度を維持
・大学院レベルの科学と推論に強み: GPQA Diamond 92.4%, AIME 2025 で100%, ARC-AGI-2 で52.9%

弱み

・同世代モデルと比較しエージェント性能が弱い — BenchLM で #29 にランクインし、エージェントベンチマークでは100点満点中61.0点
・数ヶ月以内に GPT-5.4 と GPT-5.5 に取って代わられた； GPT-5.2 Thinking は2026年6月3日に退役予定
・GPT-5.1 に比べ40%の値上げ ($1.75/$14 vs $1.25/$10)。一部のカテゴリでは限界的な改善が減少

競合比較

Model	Arena	SWE	GPQA	Price
Claude Opus 4.5	~1430*	80.9%	87.0%	$5/$25
Gemini 3 Pro	~1440*	91.9%	$2/$12
GPT-5.4 (後継)	N/A	92.8%	$2.50/$15

概要

2025年12月11日にリリースされた GPT-5.2 は、Google の Gemini 3 Pro と Anthropic の Claude Opus 4.5 からの競争圧力に対する OpenAI の積極的な応答であり、社内では「Code Red」作戦と呼ばれていました。このモデルは、クエリの複雑さに基づいてコンピューティングを動的に割り当てる適応型推論機能を備えた、3層アーキテクチャ（Instant, Thinking, Pro）を導入しました。いくつかのマイルストーン的なベンチマークを達成しました： ARC-AGI-1（Pro ティア）で90%を初めて超え、AIME 2025 で満点の100%、そして GDPval で70.9% — OpenAI 独自の知識労働ベンチマークで、44職業にわたり人間の業界プロフェッショルを初めて上回る AI となりました。このモデルの最も強力な位置づけは、専門知識業務、科学推論（GPQA Diamond: 92.4%）、長文脈分析（256Kトークンでほぼ完璧な検索）、コーディング（SWE-Bench Verified: 80.0%）にありました。GPT-5.1 に比べ、エラーを含む回答を30-38%削減し、本番ワークフロー用として大幅に信頼性を高めました。しかし、エージェントタスクでは目立った弱点を示し（BenchLM で #29）、包括的なビジョンベンチマークではマルチモーダル機能が Gemini 3 Pro の後塵を拝しました。このモデルはまた、前任者に比べ40%の価格プレミアムがつきました。 GPT-5 ファミリーの急速な進化の中で、GPT-5.2 は「推論マイルストーン」として、GPT-5.3（2026年3月）、GPT-5.4（2026年3月、1M コンテキストとコンピューター使用を追加）、および GPT-5.5（2026年4月）によって段階的に置き換えられる前に、新たなベンチマークを設定しました。2026年5月時点では、GPT-5.2 Thinking は2026年6月3日に退役予定となっており、推奨されるアップグレードパスは GPT-5.4 以上です。最新のフロンティアモデルよりも低コストで強力な推論が必要な、コスト意識の高いユーザー向けに引き続き利用可能です。

ベンチマーク＆性能

### 包括的ベンチマークスコア | ベンチマーク | GPT-5.2 スコア | カテゴリ | 備考 | |---|---|---|---| | **GPQA Diamond** | 92.4% (Thinking) / 93.2% (Pro) | 科学 | PhDレベルの物理学、化学、生物学 | | **AIME 2025** | 100% | 数学 | 外部ツールなしで満点 | | **SWE-Bench Verified** | 80.0% | コーディング | 手動で検証されたGitHubイシュー | | **SWE-Bench Pro** | 55.6% | コーディング | マルチ言語、コンタミネーション耐性 | | **GDPval** | 70.9% | 知識労働 | 44職業；人間の専門家を初めて上回る | | **ARC-AGI-1** | 86.2% (Thinking) / 90.5% (Pro) | 抽象的推論 | 90%を超えた最初のモデル | | **ARC-AGI-2** | 52.9% (Thinking) / 54.2% (Pro) | 抽象的推論 | GPT-5.1の17.6%から+200% | | **FrontierMath T1-3** | 40.3% | 数学 | エキスパートレベルの研究数学 | | **CharXiv Reasoning** | 88.7% | ビジョン | 科学図表の解釈 | | **ScreenSpot-Pro** | 86.3% | ビジョン | UI要素認識 (5.1 に比べ +22 ポイント) | | **MMMU-Pro** | ~76-79.5% | マルチモーダル | 包括的なマルチモーダル理解 | | **Tau2-bench Telecom** | 98.7% | エージェント/ツール使用 | ほぼ完璧なマルチツール調整 | | **MRCRv2 (256K)** | ~100% | 長文脈 | 4-ニードル検索精度 | ### BenchLM カテゴリランキング (117モデル中) | カテゴリ | 順位 | スコア (0-100) | |---|---|---| | 知識 | #6 | 91.7 | | 多言語 | #7 | 99.0 | | 推論 | #12 | 83.8 | | マルチモーダル | #15 | 81.9 | | コーディング | #18 | 80.2 | | 数学 | #22 | 81.0 | | 指示追従 | #21 | 84.9 | | エージェント | #29 | 61.0 | ### チャットボットアリーナの性能 | アリーナカテゴリ | Eloレーティング | 信頼区間 | 投票数 | |---|---|---|---| | テキスト全体 | 1436 | ±3.8 | 39,304 | | コーディング | 1486 | ±6.7 | 9,063 | | 難問プロンプト | 1460 | ±4.8 | 22,638 | | マルチターン | 1446 | ±7.4 | 7,390 | | 長いクエリ | 1442 | ±6.1 | 12,035 | | 指示追従 | 1423 | ±6.0 | 11,500 | | 数学 | 1433 | ±12.1 | 2,384 | | 創造的写作 | 1390 | ±8.2 | 6,111 | ### エラー率の改善 - エラーを含む回答: 6.2% (GPT-5.1の8.8%と比較) — **30%削減** - 全体的なエラー密度: GPT-5.1 に比べ **38%少ない** - 幻覚の頻度: 知識労働タスク全体で大幅に減少

詳細比較

### GPT-5.2 vs Claude Opus 4.5 | 次元 | GPT-5.2 Thinking | Claude Opus 4.5 | 勝者 | |---|---|---|---| | GPQA Diamond | 92.4% | 87.0% | GPT-5.2 | | SWE-Bench Verified | 80.0% | 80.9% | Claude (僅差) | | SWE-Bench Pro | 55.6% | 52.0% | GPT-5.2 | | GDPval | 70.9% | 59.6% | GPT-5.2 | | ARC-AGI-2 | 52.9% | 37.6% | GPT-5.2 | | コンテキストウィンドウ | 400K | 200K | GPT-5.2 | | 入力価格 | $1.75/1M | $5.00/1M | GPT-5.2 | | 出力価格 | $14/1M | $25/1M | GPT-5.2 | **分析:** GPT-5.2 は、知識労働（GDPval で+11.3 ポイント）、抽象的推論（ARC-AGI-2 で+15.3 ポイント）、科学知識（GPQA で+5.4 ポイント）を含む、ほぼすべてのベンチマークで Claude Opus 4.5 を上回ります。価格も大幅に安いです。しかし、Claude Opus 4.5 は SWE-Bench Verified で僅かな優位性を維持し（80.9% vs 80.0%）、コーディングの一貫性、安全性のアライメント、ターミナルベースのエージェントタスク（Terminal-bench）において、開発者から好まれることが多いです。Claude の文体やトーンも、実務者に好まれることが多いです。 --- ### GPT-5.2 vs Gemini 3 Pro | 次元 | GPT-5.2 Thinking | Gemini 3 Pro | 勝者 | |---|---|---|---| | GPQA Diamond | 92.4% | 91.9% | GPT-5.2 (僅差) | | SWE-Bench Pro | 55.6% | 43.3% | GPT-5.2 | | GDPval | 70.9% | 53.5% | GPT-5.2 | | ARC-AGI-2 | 52.9% | 31.1% | GPT-5.2 | | MMMU-Pro | ~76% | 81.0% | Gemini | | コンテキストウィンドウ | 400K | 1M | Gemini | | 動画理解 | N/A | 87.6% (Video-MMMU) | Gemini | | 入力価格 | $1.75/1M | $2.00/1M | GPT-5.2 | | 出力価格 | $14/1M | $12/1M | Gemini | **分析:** GPT-5.2 は、専門知識業務（GDPval で+17.4 ポイント）、コーディング（SWE-Bench Pro で+12.3 ポイント）、抽象的推論（ARC-AGI-2 で+21.8 ポイント）において Gemini 3 Pro を圧倒します。Gemini は、マルチモーダル理解（MMMU-Pro で+5 ポイント）、動画処理（独自の機能）、および生のコンテキストウィンドウサイズ（1M vs 400K）で明確な優位性を維持します。テキスト中心の専門的業務には GPT-5.2 が強力な選択肢であり、マルチメディアや巨大ドキュメントのワークフローには Gemini がリードします。 --- ### GPT-5.2 vs GPT-5.4 (後継) | 次元 | GPT-5.2 Thinking | GPT-5.4 Standard | 差分 | |---|---|---|---| | GPQA Diamond | 92.4% | 92.8% | +0.4 | | SWE-Bench Pro | 55.6% | 57.7% | +2.1 | | GDPval | 70.9% | 83.0% | +12.1 | | ARC-AGI-2 | 52.9% | 73.3% | +20.4 | | OSWorld-Verified | 47.3% | 75.0% | +27.7 | | コンテキストウィンドウ | 400K | 1M | +600K | | コンピューター使用 | なし | ネイティブ (OSWorld で75.0%) | 新機能 | | 価格 (入力) | $1.75/1M | $2.50/1M | +43% | | 価格 (出力) | $14/1M | $15/1M | +7% | **分析:** GPT-5.4 は、特にエージェント機能（OSWorld-Verified で75.0%のネイティブコンピューター使用 vs GPT-5.2 の47.3%）、知識労働（GDPval で+12.1 ポイント）、および抽象的推論（ARC-AGI-2 で+20.4 ポイント）において、有意義なアップグレードを表します。1Mのコンテキストウィンドウは利用可能なメモリを倍増させます。値上げは控えめです（$2.50/$15 vs $1.75/$14）。まだ GPT-5.2 を使用しているユーザーにとって、ほとんどの専門的ユースケースでは、GPT-5.4 へのアップグレードは十分に正当化されます。

コミュニティ評価

開発者および研究コミュニティは、GPT-5.2 に対して顕著に混合した反応を示しました。ベンチマークの数値は感銘を与えましたが、実際のテストではより微妙な状況が明らかになりました。 **好意的な受容:** OpenAI の GDPval 結果は、特に専門的サービス（法務、財務、コンサルティング）において、大きな企業の関心を引き出しました。Box などの企業は、文書抽出が40%高速化し、ライフサイエンスタスクの精度が40%向上したと報告しました。投資銀行チームは、財務モデリングの精度が9.3%改善しました。長文脈機能は広く称賛され、256Kトークンでほぼ完璧な検索は、RAG が中心のエンタープライズワークフローにおける長年の痛点に対処しました。開発者は、30-38%のエラー削減を信頼性の向上として評価しました。 **批判的な受容:** Turing College のレビューはコミュニティの感情をよく捉えています：「これは明確な#1モデルの話ではありません。Gemini 3 Pro は依然として最も自然なマルチモーダルモデルに感じられます。Claude Opus 4.5 はコーディングの安全な選択肢に感じられます。しかし、GPT-5.2 はほとんどの領域で差を詰め、今や三つ巴の競争になっています。」40%の値上げは批判を招き、特に一部のベンチマーク改善が GPT-5.1 に比べわずかだったためです。GPT-5.2 が競争圧力に応じて GPT-5.1 のわずか1ヶ月以内に発送されたという「Code Red」の物語は、改善が真の能力向上なのかベンチマーク最適化なのかについて懐疑論につながりました。 **コーディングコミュニティ:** Web 開発の実務者は、GPT-5.2 は Gemini 3 Pro と比較して視覚出力が「粗い」と感じることがあると指摘しました。Gemini 3 Pro は一貫して Tailwind 出力における紫の「AI のようなルック」を回避します。LMArena の WebDev リーダーボードでは、GPT-5.2 は Claude Opus 4.5 のすぐ下に位置し、3つのフロンティアモデルはすべて一桁の差で離れています。コンセンサスは：すべてのモデルが接近しており、「良いプロンプトエンジニアリングと幸運なシードがあれば、どのモデルでもトップに立てる可能性がある」です。 **速度に関する不満:** 初期ユーザーは、ローンチ時の需要急増による顕著な遅延問題を報告しました。リーダーボードは、GPT-5.2 が期待よりも明らかに遅いと追跡しましたが、これはモデル自体の特性というよりも、インフラのスケーリングに一部起因していました。BenchLM は平均スループットを73 tok/s と測定し、Artificial Analysis は62.6 tok/s と測定しました。 **採用パターン:** GPT-5.2 は知識労働と文書分析の分野で企業採用が強力でしたが、開発者の選好をコーディングタスクから劇的に Claude にシフトさせることはできませんでした。その急速な陳腐化（数ヶ月以内に GPT-5.4 と GPT-5.5 に置き換え）は、プロンプトエンジニアリングとワークフロー統合に投資した初期採用者を frustrate しました。

ユースケース

### 1. 専門知識労働 & 文書分析 **GPT-5.2 を選ぶべき場合:** スプレッドシート、財務モデル、法的契約書、研究論文、企業プレゼンテーションの分析を伴うタスクで、400Kのコンテキストウィンドウを活用する場合。GPT-5.2 の GDPval パフォーマンス（70.9%）は、プロフェッショナル品質の成果物を確実に生み出す最初のモデルです。 **例:** 投資銀行のアナリストが200ページの企業財務履歴をアップロードし、GPT-5.2 に3つの財務諸表モデルの構築を依頼します。モデルはすべてのページにわたる一貫性を維持し、構造化された出力を生成し、68.4%の精度を記録します — GPT-5.1 に比べ9.3ポイントの改善です。 **なぜ代替案ではないか:** Gemini 3 Pro は GDPval で53.5%、Claude Opus 4.5 は59.6%のスコアであり、いずれもこの作業負荷では GPT-5.2 を大幅に下回ります。 ### 2. 科学研究 & 大学院レベルの分析 **GPT-5.2 を選ぶべき場合:** PhD レベルの科学質問、研究論文の解釈、複雑な図表分析。GPQA Diamond（92.4%）、CharXiv（88.7%）、FrontierMath（40.3%）の組み合わせにより、その世代で最も強力なオールラウンドの科学アシスタントです。 **例:** 生物学者が複雑な免疫学の経路図を含む論文を GPT-5.2 に読み込み、未解決の質問を特定し、フォローアップ実験を提案するよう依頼します。モデルは科学図を正しく解釈し、新規で検証可能な仮説を生成します — 初期のエンタープライズユーザーによって特に注目された機能です。 **なぜ代替案ではないか:** Gemini 3 Pro の GPQA スコア（91.9%）は近いですが、GPT-5.2 の科学知識 + 科学図推論の組み合わせは比類ありません。Claude Opus 4.5 は GPQA で87.0%と大きく後れを取っています。 ### 3. 大規模コードベース分析 & ソフトウェアエンジニアリング **GPT-5.2 を選ぶべき場合:** マルチファイルのコードリファクタリング、コードレビュー、本番コードベースのデバッグ、および SWE-Bench スタイルのタスク。400Kのコンテキストウィンドウは、中規模のリポジトリ全体を保持できます。 **例:** 開発者がバグのある TypeScript コードベースを貼り付け、15ファイルにわたる競合状態の根本原因を特定し、修正を提案し、ユニットテストを提案するよう GPT-5.2 に依頼します。GPT-5.2 の SWE-Bench Verified での80.0%は、最初の試行で検証済みの問題のおよそ4/5を正常に解決できることを意味します。 **なぜ代替案ではないか:** Claude Opus 4.5 は SWE-Bench Verified でわずかに高いスコア（80.9%）を達成し、よりクリーンなコードスタイルと優れたターミナル熟练度から好まれることが多いです。純粋なコーディングには、Claude が依然としてわずかに優れた選択肢です。コーディング + 科学的コンテキストには、GPT-5.2 が勝利します。 ### 4. 長文脈研究 & 契約分析 **GPT-5.2 を選ぶべき場合:** 100Kトークンを超える文書を分析する場合 — 書籍全体、大規模な法的契約書、包括的な研究レビュー、または複数日にわたるチャット履歴。GPT-5.2 は MRCRv2 で256Kトークンまでほぼ完璧な精度を維持し、コンテキスト長に伴って急速に劣化する GPT-5.1 を劇的に上回ります。 **例:** 法務チームが約200Kトークンの500ページの合併契約書をアップロードし、GPT-5.2 にすべての免責条項を特定し、クロージング条件と照合し、不整合を指摘するよう依頼します。モデルは、以前のモデルで一般的だった「中部で紛失する」失敗なしに、埋もれたすべての条項を正しく検索します。 **なぜ代替案ではないか:** Gemini 3 Pro は、GPT-5.2 の400Kと比較して、真に巨大なドキュメント用に1Mのコンテキストウィンドウを提供しますが、同様のコンテキスト長では、GPT-5.2 の検索精度が優れています。ドキュメントが本当に400Kトークンを超える場合は Gemini を選択してください。