블로그 목록으로
NVIDIA

NVIDIA Nemotron TwoTower: 拡散言語モデルが2.42倍の推論加速を実現、品質は98.7%維持

2026年7月2日、NVIDIAはNemotron TwoTowerを正式に発表した。これは離散拡散(Discrete Diffusion)に基づく新しい言語モデルアーキテクチャだ。より大きなモデルではなく、まったく新しい推論パラダイムである。双塔設計により、コンテキストのモデル化とテキスト生成を分離し、98.7%のベンチマーク品質を維持しながら、2.42倍の推論スループット向上を達成した。

日本のAI開発者や企業にとって、これはモデル品質を犠牲にすることなく、LLM推論コストを半分以上に削減できることを意味する。

「拡散言語モデル」とは何か?

従来のLLMは、自己回帰(Autoregressive, AR)方式でトークンごとにテキストを生成する。一度に次のトークンだけを予測する方式だ。この方式は単純で信頼性が高いが、逐次実行に制約され速度が限られる。

Nemotron TwoTowerは離散拡散の方式を採用する。モデルは一度にテキスト全体のブロックを生成し、反復的なノイズ除去を通じて段階的に最適化する。これは画像生成における拡散モデルに似ているが、離散的なテキストトークンに適用されている。

重要な革新は双塔設計にある。

コンポーネント作用学習の有無
コンテキスト塔(AR)入力コンテキストの理解❌ 凍結
ノイズ除去塔(拡散)出力の生成と最適化✅ 学習(わずか2.1Tトークン)

コンテキスト塔は標準的な自己回帰モデルであり、入力を理解する役割を担う。ノイズ除去塔は新たに学習された拡散モデルで、出力を生成する役割を担う。両者が分離されたため、比較的小さなノイズ除去塔(2.1Tトークン vs バックボーンの25Tトークン)のみを学習すればよく、学習コストを大幅に削減できる。

モデル仕様

項目仕様
開発元NVIDIA
アーキテクチャハイブリッド Mamba-2 / Transformer / MoE 双塔
総パラメータ数600億(各塔300億)
アクティブパラメータ数約30億(各塔トークンあたり約30億)
レイヤー数各塔52層(23 Mamba-2 + 6 Self-Attention + 23 MoE)
エキスパート数128(6ルーティング + 2共有)
ライセンスNVIDIA Nemotron Open Model License(商用許可)
ハードウェア要件2x 80GB GPU(拡散モード)/ 1 GPU(ARフォールバック)
発売日2026年7月2日(NVIDIA AI発表)

性能比較

推論速度

指標Nemotron TwoTowerARベースライン向上率
生成スループット2.42倍1倍+142%

デフォルト設定(gamma=0.8、ブロックサイズ16、BF16、2xH100)で、Nemotron TwoTowerのウォールクロックタイムベースの生成スループットは、標準的な自己回帰モデルの2.42倍である。

ベンチマーク品質

ベンチマークテストTwoTowerARベースライン維持率
MMLU78.2478.5699.6%
HumanEval75.5879.2795.3%
GSM8K90.1492.4997.5%
総合**98.7%

総合ベンチマーク品質維持率は**98.7%**である。コード生成や数学タスクには軽微な低下が見られる(HumanEval -3.7pp、GSM8K -2.3pp)が、常識推論や多言語タスクは安定し、わずかに向上すらしている。

これは何を意味するのか?

1. 推論コストが50%以上削減できる可能性

2.42倍のスループット向上が実際のデプロイに転化できるなら、同じハードウェアで2.42倍のユーザー要求に応えるか、半分のハードウェアで同じスループットを達成できる。大規模にLLMをデプロイする企業にとって、これは巨大なコスト最適化の機会となる。

2. 学習効率の画期的な進展

ノイズ除去塔はわずか2.1Tトークンで学習できる(バックボーンは25Tトークンを要する)。これは以下を意味する。

  • 既存モデルから拡散版を低コストで派生できる
  • 特定タスク向けにノイズ除去塔を迅速に学習できる
  • 事前学習コストと推論収益の比率が非常に高い

3. MoE + Mamba + 拡散の融合

Nemotron TwoTowerは、混合エキスパート(MoE)Mamba状態空間モデル離散拡散という3つの技術を1つのアーキテクチャに融合させた初のモデルである。これは今後のLLMアーキテクチャ設計に新たな方向性を切り開く。

ハードウェア要件

モード最低ハードウェア説明
拡散モード(完全版)2x 80GB GPU2.42倍の加速を享受
ARフォールバックモード1x 80GB GPU標準的な自己回帰推論

拡散モードでは2枚の80GB GPU(H100やA100など)が必要となる点に留意が必要だ。これはコンシューマーハードウェアでのデプロイを制限するが、エンタープライズデプロイにとっては妥当な要件である。

使用場面の推奨事項

使用場面推奨選択理由
高スループット推論サービスNemotron TwoTower2.42倍の加速、コスト最適
低レイテンシ単一リクエスト標準ARモデル拡散モードには反復オーバーヘッドあり
コード生成標準ARモデルHumanEvalが3.7pp低下
大規模バッチ処理Nemotron TwoTowerスループット優位性を最大化
コンシューマーデプロイARフォールバックモードGPU1枚のみで動作

まとめ

Nemotron TwoTowerは、より大きなモデルではなく、より速い推論方法である。それは以下を証明している。

核心的な結論:

  • 2.42倍の推論加速、品質維持率98.7%――速度と品質を両立できる
  • 双塔分離設計――コンテキスト理解とテキスト生成を分離し、学習効率が極めて高い
  • ノイズ除去塔のみ学習(2.1Tトークン)――既存モデルからの派生コストが極めて低い
  • Mamba + MoE + 拡散 3-in-1アーキテクチャ――LLMアーキテクチャ設計の新パラダイム
  • 商用ライセンスでオープンソース――本番環境で使用可能

日本企業にとって、Nemotron TwoTowerは注目に値する選択肢を提供する。既存モデルを交換することなく、アーキテクチャのアップグレードによって推論コストを大幅に削減できる可能性だ。拡散推論をサポートするハードウェアが増えるにつれ、これはLLMデプロイにおける標準的な最適化手段となるかもしれない。

댓글 (0)

공유:XHatena

댓글 작성

로딩 중...