GLM-5.2:オープンソースモデルがFrontierSWEでGPT-5.5を初超え、その意味するもの
オープンソースモデルの歴史的瞬間
2026年6月16日、Z.ai(智谱AI)はGLM-5.2をMITライセンスでオープンソースとしてリリースした。これは「オープンソースがクローズドソースを追いかける」という従来の物語ではない——GLM-5.2はFrontierSWEベンチマークで74.4%を達成し、OpenAIのGPT-5.5(72.6%)を直接超え、長期タスクの完了能力でクローズドソースのフラッグシップを超えた初のオープンソースモデルとなった。
さらに重要なのは、このモデルのAPI価格がGPT-5.5の約7分の1だということだ。
技術アーキテクチャ:IndexShareと1Mコンテキスト
IndexShare:スパースアテンションの効率革命
GLM-5.2の中核的なアーキテクチャ革新はIndexShareメカニズムだ。従来のスパースアテンションは、どのトークンに注目するかを決定するために各層で独立したインデクサーを必要とした。IndexShareのアイデアは、4層ごとに同じインデクサーを共有し、計算オーバーヘッドを大幅に削減することだ。
具体的な効果:
- 1Mコンテキスト長で、トークンあたりのFLOPsが2.9倍に減少
- 安定した1Mトークンのコンテキストウィンドウをサポート
- 長文処理の品質低下なし
これは、GLM-5.2が単一の推論で約75万語の英語または100万文字の中国語を処理できることを意味する——中規模の完全なコードベースをロードするのに十分だ。
スペキュラティブデコーディングの最適化
GLM-5.2は、スペキュラティブデコーディングに使用される多トークン予測(MTP)層も改善した。受容長が最大20%向上し、モデルが生成中に後続トークンをより正確に予測でき、推論速度を加速する。
柔軟な推論努力レベル
GLM-5.2は柔軟な推論努力レベルを導入し、開発者が性能とレイテンシの間でトレードオフを行えるようにした。高速レスポンスが必要なシナリオでは低努力レベルを使用し、深い推論が必要なタスクでは高努力レベルを使用できる。
ベンチマーク:データで語る
主要比較
| ベンチマーク | GLM-5.2 | GPT-5.5 | Claude Opus 4.8 | Gemini 3.1 Pro |
|---|---|---|---|---|
| FrontierSWE | 74.4% | 72.6% | 75.1% | 39.6% |
| SWE-bench Pro | 62.1% | 58.6% | 69.2% | 54.2% |
| Terminal-Bench 2.1 | 82.7% | 83.4% | 78.9% | 70.7% |
| GPQA-Diamond | 91.2% | 93.6% | 93.6% | 94.3% |
| AIME 2026 | 99.2% | 98.3% | 95.7% | 98.2% |
| HLE (w/ Tools) | 54.7% | 52.2% | 57.9% | 51.4% |
主要な発見
-
FrontierSWE:GLM-5.2(74.4%)はGPT-5.5(72.6%)を超えたが、Claude Opus 4.8(75.1%)にはわずかに及ばない。これは、長期タスク完了能力で第一の梯隊に参入した初のオープンソースモデルだ。
-
Terminal-Bench:GLM-5.2はTerminus-2フレームワークで82.7%を達成し、Claude Opus 4.8(78.9%)を超え、GPT-5.5(83.4%)に近い。ターミナル操作能力はエージェントコーディングの重要な指標だ。
-
数学的推論:AIME 2026で99.2%、HMMT Feb 2026で92.5%を獲得し、数学的推論タスクではクローズドソースモデルと同等の能力を示した。
-
弱点:NL2Repo(48.9% vs GPT-5.5の50.7%)やSWE-Marathon(13.0% vs Opus 4.8の26.0%)ではまだ差があり、極めて長いコードベースの理解や超長時間タスクではクローズドソースモデルが依然優位にあることを示唆している。
価格:7分の1の価格
| 項目 | GLM-5.2 | GPT-5.5 | Claude Opus 4.8 |
|---|---|---|---|
| 入力価格 | $1.40/1M | ~$10/1M | $5/1M |
| 出力価格 | $4.40/1M | ~$30/1M | $25/1M |
| キャッシュ入力 | ~$0.26/1M | - | - |
| ライセンス | MIT | クローズドソース | クローズドソース |
典型的なエージェントコーディングセッション(入力100Kトークン、出力50Kトークン)を例にとると:
- GLM-5.2:$0.14 + $0.22 = $0.36
- GPT-5.5:$1.00 + $1.50 = $2.50
- Claude Opus 4.8:$0.50 + $1.25 = $1.75
GLM-5.2のコストはGPT-5.5の約7分の1、Claude Opus 4.8の5分の1だ。
自己ホスティング:MITライセンスの真の価値
GLM-5.2はMITライセンスを採用しており、これは以下を意味する:
- 地域制限なし:一部のモデルのように特定地域への制限はなく、MITライセンスは世界中のあらゆる組織による使用を許可する
- 技術的アクセス障壁なし:企業は外部APIに依存することなく、自社のインフラストラクチャ上にデプロイできる
- 完全なデータ制御:機密データが企業ネットワークの外に出る必要がない
デプロイメントフレームワークのサポート
GLM-5.2は主要な推論フレームワークをサポートしている:
- SGLang (v0.5.13+)
- vLLM (v0.23.0+)
- Transformers (v0.5.12+)
- KTransformers (v0.5.12+)
- Unsloth (v0.1.47+)
华为昇腾NPUを保有する企業には、vLLM-Ascend、xLLM、SGLangもサポートされている。
日本企業への示唆
コスト敏感型デプロイ
大量のAPI呼び出しが必要なシナリオ(コードレビュー、ドキュメント処理、データ分析など)では、GLM-5.2が提供するコストパフォーマンスはクローズドソースモデルを大きく上回る。月間100Mトークンの使用量で計算すると:
- GLM-5.2:約$580
- GPT-5.5:約$4,000
- Claude Opus 4.8:約$3,000
コンプライアンスとデータ主権
日本の金融、医療などの業界はデータ主権に厳しい要件を課している。GLM-5.2のMITライセンスと自己ホスティング能力は、以下を意味する:
- 患者データが日本国外に出ない
- 金融庁のデータローカライゼーション要件を満たす
- 内部セキュリティ監査をサポート
ハイブリッド戦略の提案
ベンチマークデータに基づき、日本企業にはハイブリッドモデル戦略を推奨する:
- 日常的なコーディングとドキュメント処理:GLM-5.2(低コスト、近い性能)
- 重要なタスクと高精度要件:Claude Opus 4.8(SWE-bench Proで先行)
- ターミナル操作と自動化:GLM-5.2またはGPT-5.5(Terminal-Benchで優秀な性能)
- 数学と推論タスク:三者間で大きな差はないため、コストに基づいて選択可能
オープンソースとクローズドソースの競争構造
GLM-5.2のリリースは転換点を示している:オープンソースモデルは単なる「無料の代替品」ではなく、主要なベンチマークでクローズドソースのフラッグシップと正面から競争できるオプションとなった。
これは業界全体に圧力をもたらす:
- OpenAIはそのプレミアム価格設定の正当性を証明する必要がある
- Anthropicはオープンソースモデルが追いつく速度の中でリードを維持する必要がある
- 企業は単一サプライヤーに強制されるのではなく、真の選択肢を持つことになる
まとめ
GLM-5.2は完璧なモデルではない——NL2Repoや超長時間タスクではまだ差がある。しかし、その意義は、オープンソースモデルが最も重要なエージェントコーディング能力でクローズドソースのフラッグシップと競争できることを証明し、同時に7分の1の価格で近い性能を提供できる点にある。
AIデプロイメント戦略を評価している日本企業にとって、GLM-5.2は無視できないオプションを提供する:より低いコストで、より高いデータ制御権を持ち、フロンティアに近いAI能力を獲得できる。
読み込み中...