オープンソース2026-06-23

GLM-5.2：オープンソースモデルがFrontierSWEでGPT-5.5を初超え、その意味するもの

オープンソースモデルの歴史的瞬間

2026年6月16日、Z.ai（智谱AI）はGLM-5.2をMITライセンスでオープンソースとしてリリースした。これは「オープンソースがクローズドソースを追いかける」という従来の物語ではない——GLM-5.2はFrontierSWEベンチマークで74.4%を達成し、OpenAIのGPT-5.5（72.6%）を直接超え、長期タスクの完了能力でクローズドソースのフラッグシップを超えた初のオープンソースモデルとなった。

さらに重要なのは、このモデルのAPI価格がGPT-5.5の約7分の1だということだ。

技術アーキテクチャ：IndexShareと1Mコンテキスト

IndexShare：スパースアテンションの効率革命

GLM-5.2の中核的なアーキテクチャ革新はIndexShareメカニズムだ。従来のスパースアテンションは、どのトークンに注目するかを決定するために各層で独立したインデクサーを必要とした。IndexShareのアイデアは、4層ごとに同じインデクサーを共有し、計算オーバーヘッドを大幅に削減することだ。

具体的な効果：

1Mコンテキスト長で、トークンあたりのFLOPsが2.9倍に減少
安定した1Mトークンのコンテキストウィンドウをサポート
長文処理の品質低下なし

これは、GLM-5.2が単一の推論で約75万語の英語または100万文字の中国語を処理できることを意味する——中規模の完全なコードベースをロードするのに十分だ。

スペキュラティブデコーディングの最適化

GLM-5.2は、スペキュラティブデコーディングに使用される多トークン予測（MTP）層も改善した。受容長が最大20%向上し、モデルが生成中に後続トークンをより正確に予測でき、推論速度を加速する。

柔軟な推論努力レベル

GLM-5.2は柔軟な推論努力レベルを導入し、開発者が性能とレイテンシの間でトレードオフを行えるようにした。高速レスポンスが必要なシナリオでは低努力レベルを使用し、深い推論が必要なタスクでは高努力レベルを使用できる。

ベンチマーク：データで語る

主要比較

ベンチマーク	GLM-5.2	GPT-5.5	Claude Opus 4.8	Gemini 3.1 Pro
FrontierSWE	74.4%	72.6%	75.1%	39.6%
SWE-bench Pro	62.1%	58.6%	69.2%	54.2%
Terminal-Bench 2.1	82.7%	83.4%	78.9%	70.7%
GPQA-Diamond	91.2%	93.6%	93.6%	94.3%
AIME 2026	99.2%	98.3%	95.7%	98.2%
HLE (w/ Tools)	54.7%	52.2%	57.9%	51.4%

主要な発見

FrontierSWE：GLM-5.2（74.4%）はGPT-5.5（72.6%）を超えたが、Claude Opus 4.8（75.1%）にはわずかに及ばない。これは、長期タスク完了能力で第一の梯隊に参入した初のオープンソースモデルだ。
Terminal-Bench：GLM-5.2はTerminus-2フレームワークで82.7%を達成し、Claude Opus 4.8（78.9%）を超え、GPT-5.5（83.4%）に近い。ターミナル操作能力はエージェントコーディングの重要な指標だ。
数学的推論：AIME 2026で99.2%、HMMT Feb 2026で92.5%を獲得し、数学的推論タスクではクローズドソースモデルと同等の能力を示した。
弱点：NL2Repo（48.9% vs GPT-5.5の50.7%）やSWE-Marathon（13.0% vs Opus 4.8の26.0%）ではまだ差があり、極めて長いコードベースの理解や超長時間タスクではクローズドソースモデルが依然優位にあることを示唆している。

価格：7分の1の価格

項目	GLM-5.2	GPT-5.5	Claude Opus 4.8
入力価格	$1.40/1M	~$10/1M	$5/1M
出力価格	$4.40/1M	~$30/1M	$25/1M
キャッシュ入力	~$0.26/1M	-	-
ライセンス	MIT	クローズドソース	クローズドソース

典型的なエージェントコーディングセッション（入力100Kトークン、出力50Kトークン）を例にとると：

GLM-5.2：$0.14 + $0.22 = $0.36
GPT-5.5：$1.00 + $1.50 = $2.50
Claude Opus 4.8：$0.50 + $1.25 = $1.75

GLM-5.2のコストはGPT-5.5の約7分の1、Claude Opus 4.8の5分の1だ。

自己ホスティング：MITライセンスの真の価値

GLM-5.2はMITライセンスを採用しており、これは以下を意味する：

地域制限なし：一部のモデルのように特定地域への制限はなく、MITライセンスは世界中のあらゆる組織による使用を許可する
技術的アクセス障壁なし：企業は外部APIに依存することなく、自社のインフラストラクチャ上にデプロイできる
完全なデータ制御：機密データが企業ネットワークの外に出る必要がない

デプロイメントフレームワークのサポート

GLM-5.2は主要な推論フレームワークをサポートしている：

SGLang (v0.5.13+)
vLLM (v0.23.0+)
Transformers (v0.5.12+)
KTransformers (v0.5.12+)
Unsloth (v0.1.47+)

华为昇腾NPUを保有する企業には、vLLM-Ascend、xLLM、SGLangもサポートされている。

日本企業への示唆

コスト敏感型デプロイ

大量のAPI呼び出しが必要なシナリオ（コードレビュー、ドキュメント処理、データ分析など）では、GLM-5.2が提供するコストパフォーマンスはクローズドソースモデルを大きく上回る。月間100Mトークンの使用量で計算すると：

GLM-5.2：約$580
GPT-5.5：約$4,000
Claude Opus 4.8：約$3,000

コンプライアンスとデータ主権

日本の金融、医療などの業界はデータ主権に厳しい要件を課している。GLM-5.2のMITライセンスと自己ホスティング能力は、以下を意味する：

患者データが日本国外に出ない
金融庁のデータローカライゼーション要件を満たす
内部セキュリティ監査をサポート

ハイブリッド戦略の提案

ベンチマークデータに基づき、日本企業にはハイブリッドモデル戦略を推奨する：

日常的なコーディングとドキュメント処理：GLM-5.2（低コスト、近い性能）
重要なタスクと高精度要件：Claude Opus 4.8（SWE-bench Proで先行）
ターミナル操作と自動化：GLM-5.2またはGPT-5.5（Terminal-Benchで優秀な性能）
数学と推論タスク：三者間で大きな差はないため、コストに基づいて選択可能

オープンソースとクローズドソースの競争構造

GLM-5.2のリリースは転換点を示している：オープンソースモデルは単なる「無料の代替品」ではなく、主要なベンチマークでクローズドソースのフラッグシップと正面から競争できるオプションとなった。

これは業界全体に圧力をもたらす：

OpenAIはそのプレミアム価格設定の正当性を証明する必要がある
Anthropicはオープンソースモデルが追いつく速度の中でリードを維持する必要がある
企業は単一サプライヤーに強制されるのではなく、真の選択肢を持つことになる

まとめ

GLM-5.2は完璧なモデルではない——NL2Repoや超長時間タスクではまだ差がある。しかし、その意義は、オープンソースモデルが最も重要なエージェントコーディング能力でクローズドソースのフラッグシップと競争できることを証明し、同時に7分の1の価格で近い性能を提供できる点にある。

AIデプロイメント戦略を評価している日本企業にとって、GLM-5.2は無視できないオプションを提供する：より低いコストで、より高いデータ制御権を持ち、フロンティアに近いAI能力を獲得できる。

コメント (0)

シェア:X はてブ

読み込み中...

ブログ一覧に戻る