NVIDIA Nemotron TwoTower: 拡散言語モデルが2.42倍の推論加速を実現、品質は98.7%維持
2026年7月2日、NVIDIAはNemotron TwoTowerを正式に発表した。これは離散拡散(Discrete Diffusion)に基づく新しい言語モデルアーキテクチャだ。より大きなモデルではなく、まったく新しい推論パラダイムである。双塔設計により、コンテキストのモデル化とテキスト生成を分離し、98.7%のベンチマーク品質を維持しながら、2.42倍の推論スループット向上を達成した。
日本のAI開発者や企業にとって、これはモデル品質を犠牲にすることなく、LLM推論コストを半分以上に削減できることを意味する。
「拡散言語モデル」とは何か?
従来のLLMは、自己回帰(Autoregressive, AR)方式でトークンごとにテキストを生成する。一度に次のトークンだけを予測する方式だ。この方式は単純で信頼性が高いが、逐次実行に制約され速度が限られる。
Nemotron TwoTowerは離散拡散の方式を採用する。モデルは一度にテキスト全体のブロックを生成し、反復的なノイズ除去を通じて段階的に最適化する。これは画像生成における拡散モデルに似ているが、離散的なテキストトークンに適用されている。
重要な革新は双塔設計にある。
| コンポーネント | 作用 | 学習の有無 |
|---|---|---|
| コンテキスト塔(AR) | 入力コンテキストの理解 | ❌ 凍結 |
| ノイズ除去塔(拡散) | 出力の生成と最適化 | ✅ 学習(わずか2.1Tトークン) |
コンテキスト塔は標準的な自己回帰モデルであり、入力を理解する役割を担う。ノイズ除去塔は新たに学習された拡散モデルで、出力を生成する役割を担う。両者が分離されたため、比較的小さなノイズ除去塔(2.1Tトークン vs バックボーンの25Tトークン)のみを学習すればよく、学習コストを大幅に削減できる。
モデル仕様
| 項目 | 仕様 |
|---|---|
| 開発元 | NVIDIA |
| アーキテクチャ | ハイブリッド Mamba-2 / Transformer / MoE 双塔 |
| 総パラメータ数 | 600億(各塔300億) |
| アクティブパラメータ数 | 約30億(各塔トークンあたり約30億) |
| レイヤー数 | 各塔52層(23 Mamba-2 + 6 Self-Attention + 23 MoE) |
| エキスパート数 | 128(6ルーティング + 2共有) |
| ライセンス | NVIDIA Nemotron Open Model License(商用許可) |
| ハードウェア要件 | 2x 80GB GPU(拡散モード)/ 1 GPU(ARフォールバック) |
| 発売日 | 2026年7月2日(NVIDIA AI発表) |
性能比較
推論速度
| 指標 | Nemotron TwoTower | ARベースライン | 向上率 |
|---|---|---|---|
| 生成スループット | 2.42倍 | 1倍 | +142% |
デフォルト設定(gamma=0.8、ブロックサイズ16、BF16、2xH100)で、Nemotron TwoTowerのウォールクロックタイムベースの生成スループットは、標準的な自己回帰モデルの2.42倍である。
ベンチマーク品質
| ベンチマークテスト | TwoTower | ARベースライン | 維持率 |
|---|---|---|---|
| MMLU | 78.24 | 78.56 | 99.6% |
| HumanEval | 75.58 | 79.27 | 95.3% |
| GSM8K | 90.14 | 92.49 | 97.5% |
| 総合 | — | — | **98.7% |
総合ベンチマーク品質維持率は**98.7%**である。コード生成や数学タスクには軽微な低下が見られる(HumanEval -3.7pp、GSM8K -2.3pp)が、常識推論や多言語タスクは安定し、わずかに向上すらしている。
これは何を意味するのか?
1. 推論コストが50%以上削減できる可能性
2.42倍のスループット向上が実際のデプロイに転化できるなら、同じハードウェアで2.42倍のユーザー要求に応えるか、半分のハードウェアで同じスループットを達成できる。大規模にLLMをデプロイする企業にとって、これは巨大なコスト最適化の機会となる。
2. 学習効率の画期的な進展
ノイズ除去塔はわずか2.1Tトークンで学習できる(バックボーンは25Tトークンを要する)。これは以下を意味する。
- 既存モデルから拡散版を低コストで派生できる
- 特定タスク向けにノイズ除去塔を迅速に学習できる
- 事前学習コストと推論収益の比率が非常に高い
3. MoE + Mamba + 拡散の融合
Nemotron TwoTowerは、混合エキスパート(MoE)、Mamba状態空間モデル、離散拡散という3つの技術を1つのアーキテクチャに融合させた初のモデルである。これは今後のLLMアーキテクチャ設計に新たな方向性を切り開く。
ハードウェア要件
| モード | 最低ハードウェア | 説明 |
|---|---|---|
| 拡散モード(完全版) | 2x 80GB GPU | 2.42倍の加速を享受 |
| ARフォールバックモード | 1x 80GB GPU | 標準的な自己回帰推論 |
拡散モードでは2枚の80GB GPU(H100やA100など)が必要となる点に留意が必要だ。これはコンシューマーハードウェアでのデプロイを制限するが、エンタープライズデプロイにとっては妥当な要件である。
使用場面の推奨事項
| 使用場面 | 推奨選択 | 理由 |
|---|---|---|
| 高スループット推論サービス | Nemotron TwoTower | 2.42倍の加速、コスト最適 |
| 低レイテンシ単一リクエスト | 標準ARモデル | 拡散モードには反復オーバーヘッドあり |
| コード生成 | 標準ARモデル | HumanEvalが3.7pp低下 |
| 大規模バッチ処理 | Nemotron TwoTower | スループット優位性を最大化 |
| コンシューマーデプロイ | ARフォールバックモード | GPU1枚のみで動作 |
まとめ
Nemotron TwoTowerは、より大きなモデルではなく、より速い推論方法である。それは以下を証明している。
核心的な結論:
- 2.42倍の推論加速、品質維持率98.7%――速度と品質を両立できる
- 双塔分離設計――コンテキスト理解とテキスト生成を分離し、学習効率が極めて高い
- ノイズ除去塔のみ学習(2.1Tトークン)――既存モデルからの派生コストが極めて低い
- Mamba + MoE + 拡散 3-in-1アーキテクチャ――LLMアーキテクチャ設計の新パラダイム
- 商用ライセンスでオープンソース――本番環境で使用可能
日本企業にとって、Nemotron TwoTowerは注目に値する選択肢を提供する。既存モデルを交換することなく、アーキテクチャのアップグレードによって推論コストを大幅に削減できる可能性だ。拡散推論をサポートするハードウェアが増えるにつれ、これはLLMデプロイにおける標準的な最適化手段となるかもしれない。
로딩 중...