ブログ一覧に戻る
OpenAI

GPT-5.2のベンチマーク総まとめ:コーディング・推論性能を徹底検証

OpenAIは2026年4月20日、新しい主力モデル「GPT-5.2」をリリースしました。本記事では、公開されている全ベンチマーク結果を詳細に分析します。

主要ベンチマーク結果

HLE(Human-Like Evaluation)

GPT-5.2はHLEで50.30を記録。これは前世代のGPT-5.1(42.10)から約19%の大幅な向上です。特に複雑な推論を要するタスクでの改善が顕著で、医療・法律・科学研究など専門領域での活用可能性が広がりました。

SWE-bench Verified

ソフトウェア開発タスクのベンチマークであるSWE-bench Verifiedでは64.8と、Claude Mythos Preview(76.5)に次ぐ高いスコアを記録。実践的なコード生成・デバッグ能力が大幅に向上しています。

FrontierMath

高度な数学推論ベンチマークのFrontierMathでは58.2を記録。数学特化型ではない汎用モデルとしては非常に高い水準です。

前世代との比較

指標GPT-5.1GPT-5.2改善率
HLE42.1050.30+19.5%
SWE-bench Verified53.664.8+20.9%
FrontierMath46.358.2+25.7%
ARC-AGI-238.745.6+17.8%

API料金

GPT-5.2の料金体系は以下の通りです:

  • 標準: 入力 $1.25/1M tokens、出力 $10.00/1M tokens
  • インスタント(GPT-5.2 Instant): 入力 $0.50/1M tokens、出力 $4.00/1M tokens
  • バッチ: 標準料金の50%割引

まとめ

GPT-5.2は前世代から着実な性能向上を達成し、特にプログラミングと推論タスクで大きな進歩を見せています。コストパフォーマンスの面でも競争力があり、幅広いユースケースに適したモデルと言えるでしょう。