OpenAI
GPT-5.2のベンチマーク総まとめ:コーディング・推論性能を徹底検証
OpenAIは2026年4月20日、新しい主力モデル「GPT-5.2」をリリースしました。本記事では、公開されている全ベンチマーク結果を詳細に分析します。
主要ベンチマーク結果
HLE(Human-Like Evaluation)
GPT-5.2はHLEで50.30を記録。これは前世代のGPT-5.1(42.10)から約19%の大幅な向上です。特に複雑な推論を要するタスクでの改善が顕著で、医療・法律・科学研究など専門領域での活用可能性が広がりました。
SWE-bench Verified
ソフトウェア開発タスクのベンチマークであるSWE-bench Verifiedでは64.8と、Claude Mythos Preview(76.5)に次ぐ高いスコアを記録。実践的なコード生成・デバッグ能力が大幅に向上しています。
FrontierMath
高度な数学推論ベンチマークのFrontierMathでは58.2を記録。数学特化型ではない汎用モデルとしては非常に高い水準です。
前世代との比較
| 指標 | GPT-5.1 | GPT-5.2 | 改善率 |
|---|---|---|---|
| HLE | 42.10 | 50.30 | +19.5% |
| SWE-bench Verified | 53.6 | 64.8 | +20.9% |
| FrontierMath | 46.3 | 58.2 | +25.7% |
| ARC-AGI-2 | 38.7 | 45.6 | +17.8% |
API料金
GPT-5.2の料金体系は以下の通りです:
- 標準: 入力 $1.25/1M tokens、出力 $10.00/1M tokens
- インスタント(GPT-5.2 Instant): 入力 $0.50/1M tokens、出力 $4.00/1M tokens
- バッチ: 標準料金の50%割引
まとめ
GPT-5.2は前世代から着実な性能向上を達成し、特にプログラミングと推論タスクで大きな進歩を見せています。コストパフォーマンスの面でも競争力があり、幅広いユースケースに適したモデルと言えるでしょう。