NVIDIA2026-07-03

NVIDIA Nemotron TwoTower: 拡散言語モデルが2.42倍の推論加速を実現、品質は98.7%維持

2026年7月2日、NVIDIAはNemotron TwoTowerを正式に発表した。これは離散拡散（Discrete Diffusion）に基づく新しい言語モデルアーキテクチャだ。より大きなモデルではなく、まったく新しい推論パラダイムである。双塔設計により、コンテキストのモデル化とテキスト生成を分離し、98.7%のベンチマーク品質を維持しながら、2.42倍の推論スループット向上を達成した。

日本のAI開発者や企業にとって、これはモデル品質を犠牲にすることなく、LLM推論コストを半分以上に削減できることを意味する。

「拡散言語モデル」とは何か？

従来のLLMは、自己回帰（Autoregressive, AR）方式でトークンごとにテキストを生成する。一度に次のトークンだけを予測する方式だ。この方式は単純で信頼性が高いが、逐次実行に制約され速度が限られる。

Nemotron TwoTowerは離散拡散の方式を採用する。モデルは一度にテキスト全体のブロックを生成し、反復的なノイズ除去を通じて段階的に最適化する。これは画像生成における拡散モデルに似ているが、離散的なテキストトークンに適用されている。

重要な革新は双塔設計にある。

コンポーネント	作用	学習の有無
コンテキスト塔（AR）	入力コンテキストの理解	❌ 凍結
ノイズ除去塔（拡散）	出力の生成と最適化	✅ 学習（わずか2.1Tトークン）

コンテキスト塔は標準的な自己回帰モデルであり、入力を理解する役割を担う。ノイズ除去塔は新たに学習された拡散モデルで、出力を生成する役割を担う。両者が分離されたため、比較的小さなノイズ除去塔（2.1Tトークン vs バックボーンの25Tトークン）のみを学習すればよく、学習コストを大幅に削減できる。

モデル仕様

項目	仕様
開発元	NVIDIA
アーキテクチャ	ハイブリッド Mamba-2 / Transformer / MoE 双塔
総パラメータ数	600億（各塔300億）
アクティブパラメータ数	約30億（各塔トークンあたり約30億）
レイヤー数	各塔52層（23 Mamba-2 + 6 Self-Attention + 23 MoE）
エキスパート数	128（6ルーティング + 2共有）
ライセンス	NVIDIA Nemotron Open Model License（商用許可）
ハードウェア要件	2x 80GB GPU（拡散モード）/ 1 GPU（ARフォールバック）
発売日	2026年7月2日（NVIDIA AI発表）

性能比較

推論速度

指標	Nemotron TwoTower	ARベースライン	向上率
生成スループット	2.42倍	1倍	+142%

デフォルト設定（gamma=0.8、ブロックサイズ16、BF16、2xH100）で、Nemotron TwoTowerのウォールクロックタイムベースの生成スループットは、標準的な自己回帰モデルの2.42倍である。

ベンチマーク品質

ベンチマークテスト	TwoTower	ARベースライン	維持率
MMLU	78.24	78.56	99.6%
HumanEval	75.58	79.27	95.3%
GSM8K	90.14	92.49	97.5%
総合	—	—	**98.7%

総合ベンチマーク品質維持率は**98.7%**である。コード生成や数学タスクには軽微な低下が見られる（HumanEval -3.7pp、GSM8K -2.3pp）が、常識推論や多言語タスクは安定し、わずかに向上すらしている。

これは何を意味するのか？

1. 推論コストが50%以上削減できる可能性

2.42倍のスループット向上が実際のデプロイに転化できるなら、同じハードウェアで2.42倍のユーザー要求に応えるか、半分のハードウェアで同じスループットを達成できる。大規模にLLMをデプロイする企業にとって、これは巨大なコスト最適化の機会となる。

2. 学習効率の画期的な進展

ノイズ除去塔はわずか2.1Tトークンで学習できる（バックボーンは25Tトークンを要する）。これは以下を意味する。

既存モデルから拡散版を低コストで派生できる
特定タスク向けにノイズ除去塔を迅速に学習できる
事前学習コストと推論収益の比率が非常に高い

3. MoE + Mamba + 拡散の融合

Nemotron TwoTowerは、混合エキスパート（MoE）、Mamba状態空間モデル、離散拡散という3つの技術を1つのアーキテクチャに融合させた初のモデルである。これは今後のLLMアーキテクチャ設計に新たな方向性を切り開く。

ハードウェア要件

モード	最低ハードウェア	説明
拡散モード（完全版）	2x 80GB GPU	2.42倍の加速を享受
ARフォールバックモード	1x 80GB GPU	標準的な自己回帰推論

拡散モードでは2枚の80GB GPU（H100やA100など）が必要となる点に留意が必要だ。これはコンシューマーハードウェアでのデプロイを制限するが、エンタープライズデプロイにとっては妥当な要件である。

使用場面の推奨事項

使用場面	推奨選択	理由
高スループット推論サービス	Nemotron TwoTower	2.42倍の加速、コスト最適
低レイテンシ単一リクエスト	標準ARモデル	拡散モードには反復オーバーヘッドあり
コード生成	標準ARモデル	HumanEvalが3.7pp低下
大規模バッチ処理	Nemotron TwoTower	スループット優位性を最大化
コンシューマーデプロイ	ARフォールバックモード	GPU1枚のみで動作

まとめ

Nemotron TwoTowerは、より大きなモデルではなく、より速い推論方法である。それは以下を証明している。

核心的な結論：

2.42倍の推論加速、品質維持率98.7%――速度と品質を両立できる
双塔分離設計――コンテキスト理解とテキスト生成を分離し、学習効率が極めて高い
ノイズ除去塔のみ学習（2.1Tトークン）――既存モデルからの派生コストが極めて低い
Mamba + MoE + 拡散 3-in-1アーキテクチャ――LLMアーキテクチャ設計の新パラダイム
商用ライセンスでオープンソース――本番環境で使用可能

日本企業にとって、Nemotron TwoTowerは注目に値する選択肢を提供する。既存モデルを交換することなく、アーキテクチャのアップグレードによって推論コストを大幅に削減できる可能性だ。拡散推論をサポートするハードウェアが増えるにつれ、これはLLMデプロイにおける標準的な最適化手段となるかもしれない。

공유:X Hatena

로딩 중...

블로그 목록으로