ブログ一覧に戻る
オープンソース

GLM-5.2:オープンソースモデルがFrontierSWEでGPT-5.5を初超え、その意味するもの

オープンソースモデルの歴史的瞬間

2026年6月16日、Z.ai(智谱AI)はGLM-5.2をMITライセンスでオープンソースとしてリリースした。これは「オープンソースがクローズドソースを追いかける」という従来の物語ではない——GLM-5.2はFrontierSWEベンチマークで74.4%を達成し、OpenAIのGPT-5.5(72.6%)を直接超え、長期タスクの完了能力でクローズドソースのフラッグシップを超えた初のオープンソースモデルとなった。

さらに重要なのは、このモデルのAPI価格がGPT-5.5の約7分の1だということだ。

技術アーキテクチャ:IndexShareと1Mコンテキスト

IndexShare:スパースアテンションの効率革命

GLM-5.2の中核的なアーキテクチャ革新はIndexShareメカニズムだ。従来のスパースアテンションは、どのトークンに注目するかを決定するために各層で独立したインデクサーを必要とした。IndexShareのアイデアは、4層ごとに同じインデクサーを共有し、計算オーバーヘッドを大幅に削減することだ。

具体的な効果:

  • 1Mコンテキスト長で、トークンあたりのFLOPsが2.9倍に減少
  • 安定した1Mトークンのコンテキストウィンドウをサポート
  • 長文処理の品質低下なし

これは、GLM-5.2が単一の推論で約75万語の英語または100万文字の中国語を処理できることを意味する——中規模の完全なコードベースをロードするのに十分だ。

スペキュラティブデコーディングの最適化

GLM-5.2は、スペキュラティブデコーディングに使用される多トークン予測(MTP)層も改善した。受容長が最大20%向上し、モデルが生成中に後続トークンをより正確に予測でき、推論速度を加速する。

柔軟な推論努力レベル

GLM-5.2は柔軟な推論努力レベルを導入し、開発者が性能とレイテンシの間でトレードオフを行えるようにした。高速レスポンスが必要なシナリオでは低努力レベルを使用し、深い推論が必要なタスクでは高努力レベルを使用できる。

ベンチマーク:データで語る

主要比較

ベンチマークGLM-5.2GPT-5.5Claude Opus 4.8Gemini 3.1 Pro
FrontierSWE74.4%72.6%75.1%39.6%
SWE-bench Pro62.1%58.6%69.2%54.2%
Terminal-Bench 2.182.7%83.4%78.9%70.7%
GPQA-Diamond91.2%93.6%93.6%94.3%
AIME 202699.2%98.3%95.7%98.2%
HLE (w/ Tools)54.7%52.2%57.9%51.4%

主要な発見

  1. FrontierSWEGLM-5.2(74.4%)はGPT-5.5(72.6%)を超えたが、Claude Opus 4.8(75.1%)にはわずかに及ばない。これは、長期タスク完了能力で第一の梯隊に参入した初のオープンソースモデルだ。

  2. Terminal-BenchGLM-5.2はTerminus-2フレームワークで82.7%を達成し、Claude Opus 4.8(78.9%)を超え、GPT-5.5(83.4%)に近い。ターミナル操作能力はエージェントコーディングの重要な指標だ。

  3. 数学的推論:AIME 2026で99.2%、HMMT Feb 2026で92.5%を獲得し、数学的推論タスクではクローズドソースモデルと同等の能力を示した。

  4. 弱点:NL2Repo(48.9% vs GPT-5.5の50.7%)やSWE-Marathon(13.0% vs Opus 4.8の26.0%)ではまだ差があり、極めて長いコードベースの理解や超長時間タスクではクローズドソースモデルが依然優位にあることを示唆している。

価格:7分の1の価格

項目GLM-5.2GPT-5.5Claude Opus 4.8
入力価格$1.40/1M~$10/1M$5/1M
出力価格$4.40/1M~$30/1M$25/1M
キャッシュ入力~$0.26/1M--
ライセンスMITクローズドソースクローズドソース

典型的なエージェントコーディングセッション(入力100Kトークン、出力50Kトークン)を例にとると:

GLM-5.2のコストはGPT-5.5の約7分の1、Claude Opus 4.8の5分の1だ。

自己ホスティング:MITライセンスの真の価値

GLM-5.2はMITライセンスを採用しており、これは以下を意味する:

  1. 地域制限なし:一部のモデルのように特定地域への制限はなく、MITライセンスは世界中のあらゆる組織による使用を許可する
  2. 技術的アクセス障壁なし:企業は外部APIに依存することなく、自社のインフラストラクチャ上にデプロイできる
  3. 完全なデータ制御:機密データが企業ネットワークの外に出る必要がない

デプロイメントフレームワークのサポート

GLM-5.2は主要な推論フレームワークをサポートしている:

  • SGLang (v0.5.13+)
  • vLLM (v0.23.0+)
  • Transformers (v0.5.12+)
  • KTransformers (v0.5.12+)
  • Unsloth (v0.1.47+)

华为昇腾NPUを保有する企業には、vLLM-Ascend、xLLM、SGLangもサポートされている。

日本企業への示唆

コスト敏感型デプロイ

大量のAPI呼び出しが必要なシナリオ(コードレビュー、ドキュメント処理、データ分析など)では、GLM-5.2が提供するコストパフォーマンスはクローズドソースモデルを大きく上回る。月間100Mトークンの使用量で計算すると:

コンプライアンスとデータ主権

日本の金融、医療などの業界はデータ主権に厳しい要件を課している。GLM-5.2のMITライセンスと自己ホスティング能力は、以下を意味する:

  • 患者データが日本国外に出ない
  • 金融庁のデータローカライゼーション要件を満たす
  • 内部セキュリティ監査をサポート

ハイブリッド戦略の提案

ベンチマークデータに基づき、日本企業にはハイブリッドモデル戦略を推奨する:

  • 日常的なコーディングとドキュメント処理GLM-5.2(低コスト、近い性能)
  • 重要なタスクと高精度要件Claude Opus 4.8(SWE-bench Proで先行)
  • ターミナル操作と自動化GLM-5.2またはGPT-5.5(Terminal-Benchで優秀な性能)
  • 数学と推論タスク:三者間で大きな差はないため、コストに基づいて選択可能

オープンソースとクローズドソースの競争構造

GLM-5.2のリリースは転換点を示している:オープンソースモデルは単なる「無料の代替品」ではなく、主要なベンチマークでクローズドソースのフラッグシップと正面から競争できるオプションとなった。

これは業界全体に圧力をもたらす:

  • OpenAIはそのプレミアム価格設定の正当性を証明する必要がある
  • Anthropicはオープンソースモデルが追いつく速度の中でリードを維持する必要がある
  • 企業は単一サプライヤーに強制されるのではなく、真の選択肢を持つことになる

まとめ

GLM-5.2は完璧なモデルではない——NL2Repoや超長時間タスクではまだ差がある。しかし、その意義は、オープンソースモデルが最も重要なエージェントコーディング能力でクローズドソースのフラッグシップと競争できることを証明し、同時に7分の1の価格で近い性能を提供できる点にある。

AIデプロイメント戦略を評価している日本企業にとって、GLM-5.2は無視できないオプションを提供する:より低いコストで、より高いデータ制御権を持ち、フロンティアに近いAI能力を獲得できる。

コメント (0)

シェア:Xはてブ

コメントを投稿

読み込み中...