このモデルの強みは何ですか？

高度なコーディング能力 400Kの広大な文脈量 OpenAIによる最適化

このモデルの弱みは何ですか？

非オープンソースの制限外部アクセスの限定性クローズドな利用条件

どんな用途に最適ですか？

大規模コードの解析複雑なプログラム実装高度なバグ修正作業

モデル一覧に戻る

OpenAIプロプライエタリ

OpenAI GPT-5.1-Codex-Max

Name: OpenAI GPT-5.1-Codex-Max
Author: OpenAI

OpenAI GPT-5.1-Codex-Maxは、OpenAIによって開発されたプログラミング特化の基盤モデルです。400Kという非常に長いコンテキストウィンドウを備えており、大規模なコードベースの処理に適しています。

パラメータ

非公開

コンテキスト長

400K

ライセンス

プロプライエタリ

リリース日

2025-11-19

API料金

このモデルのAPI料金情報は現在未公開です

強み

・高度なコーディング能力
・400Kの広大な文脈量
・OpenAIによる最適化

弱み

・非オープンソースの制限
・外部アクセスの限定性
・クローズドな利用条件

活用例

・大規模コードの解析
・複雑なプログラム実装
・高度なバグ修正作業

深度分析

リリース日

November 19, 2025

コンテキストウィンドウ

Effectively unlimited (compaction)

入力価格

$1.25 / 1M tokens

出力価格

$10.00 / 1M tokens

キャッシュ入力

$0.625 / 1M tokens

SWE-bench 検証済み

77.9% (xhigh)

ターミナルベンチ 2.0

58.1%

SWE-Lancer IC SWE（個人貢献者ソフトウェアエンジニアリング）

79.9%

モデル: openai-gpt-5-1-codex-max フィールド: label 翻訳するテキスト: 自律動作

24+ hours continuous

スループット

58.4 tok/s avg (11-110 range)

強み

・コンテキスト圧縮を備えた初のモデル——反復的な要約による事実上無限のコンテキスト
・SWE-bench Verified 77.9%、前身モデル比で思考トークン30%削減
・複雑なタスクにおける24時間以上の自律運用
・ネイティブWindowsサポート——OpenAIのコーディングモデルとして初めての提供
・コストと品質のトレードオフに応じた推論努力度の設定（なし/中/高/最高）

弱み

・高レイテンシー（平均TTFT 2,060ms）であり、変動係数169.3%という著しい変動性がある
・コンテキスト圧縮により、非常に長いセッションにおいて詳細が「ぼやける」可能性がある
・METR評価によると、80%の信頼性を維持できる時間範囲は24時間ではなく約2時間である
・指示を非常に文字通りに解釈するため、明らかなタイプミスを認識しない可能性がある
・Claude Codeと比較してコードチャーンが高く（書き直しが30%多い）

競合比較

Model	Arena	SWE	GPQA	Price
Claude Opus 4.5	~1450	80.9%	~92%	$15/$75 per 1M tokens
Gemini 3 Pro	~1420	76.2%	~90%	$3.50/$10.50 per 1M tokens
GPT-5.1 Codex	~1400	73.7%	~88%	$1.25/$10 per 1M tokens
Cursor (varies)	N/A	Varies	N/A	$20/month subscription

概要

GPT-5.1-Codex-Maxは、2025年11月19日にOpenAIがリリースした最先端のエージェント型コーディングモデルで、事実上無制限のコンテキストを実現する革命的なコンテキスト圧縮技術を特徴としています。前身モデルより30%少ない思考トークンでSWE-bench Verified 77.9%を達成し、24時間以上自律的に動作可能です。すべてのCodexプラットフォームでデフォルトとしてGPT-5.1-Codexに取って代わりました。

ベンチマーク＆性能

モデル: openai-gpt-5-1-codex-max 分野: 性能 GPT-5.1-Codex-Maxは、xhigh推論でSWE-bench Verified 77.9%（highで76.5%）、SWE-Lancer IC SWE 79.9%、およびTerminal-Bench 2.0 58.1%を達成しています。より優れた結果を達成しながら、GPT-5.1-Codexより30%少ないthinkingトークンを使用しています。コンテキスト圧縮システムにより、長時間セッションにおいて全体的なトークンを20-40%削減します。平均スループットは58.4 tok/sで、変動性が高く（範囲11-110）、Claude Opus 4.5がSWE-benchで80.9%を記録し首位に立っています。

詳細比較

モデル: openai-gpt-5-1-codex-max 分野: 比較 GPT-5.1-Codex-MaxはSWE-benchにおいてClaude Opus 4.5（77.9%対80.9%）に劣るものの、Claudeの200Kに対して圧縮により事実上無制限のコンテキストを提供します。SWE-benchではGemini 3 Pro（76.2%）を上回っています。このモデルはClaude Codeよりもコードの変更頻度が高いですが、ネイティブWindowsサポートと24時間以上の自律運用を提供します。100万トークンあたり$1.25/$10という価格は、Claude Opus（$15/$75）より大幅に安く、ベンチマークでも競争力があります。

コミュニティ評価

開発者はこれをGPT-5.1-Codexに対する「重要な進歩」と報告しており、1人の開発者が10万行以上のコードからなる64ビットSMP OSの作成に成功したケースもある。OpenAIのエンジニアの95%が週次でCodexを使用し、PRを～70%多く出荷していると報告されている。主な批判点は高レイテンシ、過度に文字通りな指示の追従、およびコンテキスト圧縮による時間経過に伴う詳細の損失である。このモデルは大規模な自律的コーディングタスクには好まれるが、インタラクティブな開発にはClaudeが好まれる。

ユースケース

最適な用途：長期間にわたる自律的なコード生成とリファクタリング、大規模プロジェクトのスキャフォールディング、複数ファイルにわたるアーキテクチャ変更、継続的インテグレーションとテストパイプライン、Windowsネイティブ開発、および複雑なデバッグセッション。設定可能な推論努力により柔軟性がある：日常的なタスクには「medium」を、最も困難な問題（競合状態、レガシーシステム）には「xhigh」を使用する。非推奨の用途：迅速なコード補完（過剰すぎる）、5分未満のタスク、インタラクティブなペアプログラミング、またはClaudeのより低い変更頻度が好まれるセキュリティクリティカルなコード。