这是一篇把"世界模型"讲明白的科普级综述!
{
"title": "【基礎解説】世界モデルとは何か?AIが「行動before思考」するための核心技術を徹底解説",
"content": "## 一、李飛飛、LeCun、Hassabis、世界モデルに同時に着手\n\n最近、AI業界で主流に反する動きがある。\n\nチューリング賞受賞者の Yann LeCun は、謝賽寧と共同でAMI Labsを設立し、10億ドルの資金を調達。より大きなLLMの構築ではなく、「世界モデル」の開発を目指している。ほぼ同時期に、李飛飛のWorld Labsは数億ドルを調達し、「空間インテリジェンス」:AIに三维世界を理解させ、単にチャットや描画だけでなく理解させる技術を標榜した。さらにGenieに一貫して賭けを続けるDeepMindのDemis Hassabisと合わせ、AI界で最も有名な名前たちが、おのおの同じ分野に舵を切った。\n\nこの分野は、世界モデル(World Model) と呼ばれる。\n\nLLMが解決する問題とは全く異なる:LLMは「世界はどうなっているか」を教えてくれるが、世界モデルは 「私がこの行動をとった後、世界はどう変わるか」 を教えてくれる。一つは傍観者、もう一つは参与者である。\n\nこのたびDatawhaleでは、learn-world-modelというオープンソースプロジェクトを開始し、初めて皆さんが世界モデルをゼロから学び、実装する一助になればと考えた。本記事はその導入解説となる(チュートリアルはまだβ版であり、今後も更新を続ける)。\n
\nオープンソースアドレス: https://github.com/datawhalechina/learn-world-model/tree/main\n\n専門用語を乱用せず、数式を投げつけない。まずそれが何であるかを明確にし、その後80年の発展史を歩み、最後に最も注目されている5つの技術路線を一気に解説する。\n\nこの歴史の起点はLLMよりもずっと古い——1943年、英国の心理学者Kenneth Craikは、脳が「現実の縮小モデル」を維持しており、行動する前に脳内でシミュレーションを実行すると予見した。80年後の今、その予見が、こうした有力者たちによって各自の方法で現実のものとしている。\n\n## 二、まずは一つの物語:脳は元々「予測マシン」だった\n\n神経科学は1990年代に興味深い事実を発見した:脳は世界を「見ている」のではなく、世界を 予測 し、その「予測が外れた部分」のみを処理している。\n\nこれは 予測符号化(Predictive Coding) と呼ばれる。\n\n視覚皮層は目が捉えた各画素をそのまま上位に伝えることはしない。それはエネルギー消費が激しいからだ。脳の高位層は低位層に対して「予測」を出し続け、低位層はその予測と実際の感覚入力との 誤差 を上に伝えるだけでよい。\n\n馴染みのオフィスに入った時、脳は事実上何も情報処理する必要がない。すべてが予期内だからだ。しかし、同僚の椅子の位置が変わった場合、その「ずれ」の信号がすぐに注意を引く。予測が合っていた部分は圧縮され、誤差のみがリソースを消費する価値がある。\n\n制御工学の分野でも1960年代に同様の原理を別個に発見しており、内部モデル原理(Internal Model Principle) と呼ばれている:\n\nあるシステムを完全に制御するには、コントローラーの内部にそのシステムのモデルが含まれていなければならない。\n\n何かを制御しようとするなら、まずそれを理解する必要がある。この原理はロボット、宇宙船、自動運転にまで通底し、後の「モデルベース強化学習」の理論的基盤ともなった。\n\n## 三、世界モデルとは一体何か?(これ一つの数式で理解足够)\n\nこの言葉は乱用されており、まずその範囲を明確にする。\n\n広義には :「次に何が起こるか」を予測できるモデルはすべて世界モデルと呼べる。動画生成モデルは次フレームを予測し、言語モデルは次単語を予測し、天気予報は明日の気温を予測し、すべて当てはまる。\n\n狭義には、強化学習とロボットの分野で、世界モデルはより厳密な意味を持つ:それは アクション を条件としてなければならない。単に「次フレームがどう見えるか」ではなく、以下を意味する:\n\n「私がこの行動をとった後、世界はどのように変わるか?」\n\n一言で言えば、現在の観測と行動を条件とし、次の時刻の観測の確率分布を予測するものである:\n
\nここで $o_t$ は現在の観測、$a_t$ は実行された行動、$o_{t+1}$ は次の時刻の観測を表す。\n\nこの条件が加わることで、世界モデルは「傍観者」から「参与者」に変わる:世界がどうなるかだけでなく、あなたの選択がどのような結果をもたらすか を教えてくれる。ロボットに必要なのは後者である。\n\n本記事が焦点を当てるのは、このより厳密な定義である。\n\n## 四、世界モデルは何ができる?代替不能な3つの価値\n\n3つの価値がある。最初のものは最も直感的だが、後二者は産業界が本当に重視しており、また最も見落とされがちな部分でもある。\n\n### 価値1:サンプル効率——脳内で一万回練習する\n\nモデルフリー強化学習(Model-Free RL)は、単純なタスクを学習するために数百万回の実環境交互作用を必要とし、その都度が実際の時間と資源を消費する。\n\n世界モデルは、エージェントが内部シミュレーションで膨大な軌跡を「仮想的に経験」することを可能にする:\n
\nDreamer V3(arXiv:2301.04104)は、Atari 100kベンチマーク(実環境交互作用を100,000ステップのみ許可)で人間のレベルを超えているが、その背景にあるのはまさにこの仕組みである。\n\n### 価値2:計画能力——動く前に計算する\n\n世界モデルがあれば、エージェントは行動する前に脳内でいくつかの経路を試行し、期待される報酬が最も高いものを選択できる。\n\nMuZero(DeepMind, 2020, arXiv:1911.08265)はまさにこの仕組みに依拠し、ゲームルール(状態遷移方程式、終了条件)を教わらないまま、独自に内部動的モデルを学習し、チェス、囲碁、Atariゲームの汎用戦略を習得した。\n\n### 価値3:安全性——産業界が最も重視する切り札\n\nロボット、自動運転、産業制御などの分野では、試行錯誤の代償が壊滅的になる可能性がある。\n\n世界モデルの解決策:\n
\nWayveのGAIA-1(arXiv:2309.17080)はこのアイデアを工業レベルで検証している:実際の路上走行フラグメントを条件とし、モデルは「同じ交差点で、異なる天候/歩行者の行動」の変動を自動生成でき、安全上重要なシナリオの学習カバレッジを、純粋な実データ収集では到達できない規模まで高められる。コストは実路上走行のごく一部に抑えられる。\n\n## 五、簡史:1943年から2026年まで、四つの時代\n\n### フェーズ1:理論の基盤(1950年代〜2017年)\n\nリカレントニューラルネットワーク(RNN)、カルマンフィルタ、隠れマルコフモデル……70年の間、研究者は制御理論、音声認識、ロボティクスの異なる分野でそれぞれ「未来の状態を予測する」ツールを構築してきたが、いずれも「世界モデル」という名前で統一されることはありませんでした。\n\n最も代表的な例:1960年代のカルマンフィルタは、アポロ航法システムで宇宙船の位置をリアルタイムに予測するのに役立った。センサーの読み取りを待たず、まず内部モデルで宇宙船が次の一秒どこにいるか「推測」し、その後、実測値で誤差を補正する。同じ考え方が、後に音声認識、天気予報、産業用ロボットに登場し、単に数式の表記が変わっただけでした。\n\n2018年に、このばらばらなツールを初めて一連のエンドツーエンドで訓練できるフレームワークにまとめた論文が発表された。\n\n### フェーズ2:「夢の中で運転を学ぶ」(2018年)\n\n2018年、David HaとJürgen Schmidhuberは『World Models』(arXiv:1803.10122)を発表し、3つのモジュールでこのフレームワークを構築した:\n
\nVモジュールは畳み込みニューラルネットワーク(CNN)で、ゲームの各フレーム画像を低次元ベクトルzに圧縮する。Mモジュールは混合密度ネットワーク+リカレントニューラルネットワーク(MDN-RNN)で、zと前ステップの行動を入力とし、次のzの確率分布を予測する。Cモジュールは非常にシンプルな線形層であり、現在のzと隠れ状態をアクションにマッピングする。\n\n最も魅力的だったのは彼らの実験:コントローラーを記憶モジュールが想像した 仮想環境 に入れて訓練し、そのポリシーを実際のゲームに移転した。夢の中で運転を学び、目を覚ましたらすぐ走れる。 この比喩は世界モデルを初めて一般の视野に届けた。\n\nしかしこの実験は世界モデルの核心的な難題も露わにした:コントローラーは世界モデルの エラーを悪用 して架空の高スコアを生み出し、夢の中で不正をしてしまった(RLでは リワードハッキング という専門用語がある)。モデルはまだ運転を学ぶ前に、KPIをごまかす方法を学んでしまった。この問題は、その後もこの分野全体の課題であり続けた。\n\n### フェーズ3:潜在空間の革命(2019年〜2022年)\n\n2019年、Danijar HafnerらはDreamer V1(arXiv:1912.01603)を発表し、RSSM(リカレントステートスペースモデル) を導入し、世界モデルのアーキテクチャを新たな段階へと押し上げた。\n\nDreamerの核心的な変更は一つだけ:ピクセル空間では何も行わず、低次元の 潜在空間(latent space) で直接予測、計画、報酬学習の全プロセスを完遂すること。\n\n潜在空間とは何か? 64×64のゲームフレーム(12,288画素値)を数十次元のベクトルに圧縮し、照明、テクスチャ、背景ノイズなどの無関係な詳細を捨て、「ここにプラットフォームがあり、あそこに敵がいる」といった構造的情報のみを保持する。この圧縮された低次元空間が潜在空間である。圧縮を完了するネットワークは VAE(Variational Autoencoder) と呼ばれる。学習目標は、圧縮後に元に戻した再構成画像が元の画像にできるだけ近くなることである。\n\nなぜこの変化がこれほど重要か?ピクセル空間で予測する場合、モデルは12,288個の数値の正確な値に責任を持たなければならず、背景のノイズの一粒、照明の微細な変化のすべてを含み、計算コストが非常に高い。\n\nRSSMはこの問題を2つの並列パスに分割した。決定的パスは GRU(リカレントニューラルネットワークの一種で、「これまで何が起こったか」を記憶するのに長ける)を用いて滑らかで連続的な動的を捉える。確率的パスは学習された確率分布からランダムベクトルをサンプリングし、例えば投げたボールが穴に入るかどうかといった、環境に存在する真の不確実性を捉える。両方の情報を結合してから、次ステップの予測を行う:\n
\nこの構造があれば、Dreamerの計画方法は次のようになる:現在の状態をRSSMに渡し、実環境とは対話せず、内部で未来数ステップを繰り返し予測的同时に、学習された報酬モデルでスコアリングを行い、期待される累積報酬が最も高いアクションシーケンスを選択し、最初のステップを実行する。「想像・スコアリング・行動」のサイクル全体が潜在空間で完結し、実環境を回すよりもはるかに高速である。\n\nDreamerシリーズはV1からV4に至り、世界モデル分野の代表的な仕事となった。Dreamer V3(arXiv:2301.04104)は 単一のハイパーパラメータ で、Atari、Minecraft、ロボット制御など8分野・150以上のタスクにまたがり、各分野で競争力のある結果を達成した。これは前例のないことであった。\n\nフェーズ2の「不正問題」は、RSSMアーキテクチャで構造的に緩和された:ポリシー学習が潜在空間で完結するため、モデルが悪用できる「穴」が大幅に減り、後のV-JEPA 2はEMAによって学習メカニズム面でこの近道を断った(後述)。\n\n### フェーズ4:動画即ち世界(2023年以降)\n\n2023年前後、2つの並行する路線が収束した:動画そのものを用いて世界の物理法則を学ぶことは可能か?\n\n路線A:JEPA(Joint Embedding Predictive Architecture)\n\nYann LeCunのチームは拡散モデルとは全く異なる道を歩んだ:ピクセルの再構成を捨て、意味埋め込み空間 でのみ予測を行う。\n
\n「あなたの顔を描く必要はない。あなたが誰であるかを知ればよい。」\n\nMetaが2025年に発表したV-JEPA 2は、明確に「AGIに向けた世界モデルのコンポーネント」と位置づけられた:アクションシーケンスを条件とし、意味空間で未来の視覚表現を予測する。リアルな動画を生成するのではなく、「もし私が腕をこう移動させたら、物体はどこにあるか」を理解するものである。\n\n路線B:大規模動画生成\n\nGoogleのGenie、Veoが2024年に発表され、NVIDIAのCosmosが2025年初頭に追随した。研究者たちは問い始めた:これらのモデルがリアルな動画を生成する过程中に、空間的構造感覚、物体の持続性、粗粒度の物理法則 をたまたま学習しているのではないか?もし学習していれば、それらはロボットの基盤となる世界モデルになり得るのか?\n\nこの問題に決定的な答えはまだないが、それだけで十分に真剣であり、元々並行していた2つの分野を同じ議論の場に引きずり出した。\n\n## 六、なぜちょうどこの2年で話題になったのか?\n\nフェーズ3のDreamer V1は2019年のもので、フェーズ4の動画生成は2023年にはすでに始まっていた。なぜちょうど2024-2025年になってすべてのAI会議の主役になったのか?\n\n何らかの単一の突破口があったのではなく、3つの線がちょうど同時に成熟し、ぶつかり合ったからである。\n\n1本目の線:動画生成が突然強くなった。 Genie、Veo、Cosmosの登場(上述フェーズ4)により、動画生成の質は短期間に大幅に向上した。しかし質の向上はより深い問いを引き出した:生成の質が高くても物理理解が深いわけではない。このバッチのモデルはロボットの基盤世界モデルになり得るのか?この問いが多数の分野横断的な研究投入を催生し、2024年以降に世界モデルの議論が動画生成とロボットの両方の会議に登場する理由でもある。\n\n2本目の線:アンブリエントインテリジェンスがデータのボトルネックに直面した。 汎用ロボットの訓練には大量のテレオペレーションデータが必要で、コストが非常に高い。世界モデルは「ラベルなし動画から間接的に学習する」迂回路を提供する。\n\n3本目の線:自動運転が「反事実シミュレーション」のビジネス価値を実証した。 WayveのGAIA-1はすでに工業レベルでこれを証明している:世界モデルを使って希少な危険シナリオの合成データを生成することは、単に路上走行距離を積み上げるよりも効率的であり、この経路のビジネスロジックはすでに機能している。\n\n前回の世界モデルブーム(2018-2020年)は学術界主導で、ゲーム内で実現可能性を証明したが、実装は遠いものだった。今回は(2024年以降)産業界と学術界が同時に参入している。なぜなら、それはすでに実際のコストボトルネックと安全性のニーズに触れているからである。\n\n## 七、5つの技術路線、一度に解説\n\n2023年以降、世界モデルは5つの路線に分化し、それぞれが抱える核心的なトレードオフが異なる:RNN/RSSMはサンプル効率を追求し、Transformerは長距離依存関係のモデル化を追求し、Diffusionは生成品質を追求し、JEPAは意味的理解を追求し、Embodied WMはデータ効率を追求する。どれを選ぶかは、あなたのタスクがどのボトルネックに敏感かに依存する:\n\n### 📊 アーキテクチャ比較早見表\n
\n### STORM:ゲームフレームを「文」に変換\n\nSTORM(NeurIPS 2023, arXiv:2310.09615)のアイデアは、GPTが文章を扱う方法を動画フレームに適用することだ。\n\nGPTは「次の単語」を予測できる。なぜなら単語は離散的で、確率分布で正確にモデル化できるからだ。STORMは カテゴリカル VAE を用いて各フレームを 離散潜在変数 に圧縮する。まるで歌の一小節を「ここはAメロのサビ」と記述し、「この4秒の完全な波形データを保持」するのではなく。この離散符号と現在のアクションを単一のトークンに結合し、Transformerに渡す。\n
\n単一トークン設計により、シーケンス長が大幅に短縮され(同時期のIRIS手法はフレームあたり16トークン生成するが、STORMは1トークンのみ)、学習速度が大幅に向上した。Atari 100kベンチマークで、STORMは追加の計画アルゴリズムに依存しない手法として当時最高記録の 平均人間正規化スコア(HNS、Human Normalized Score、人間プレイヤーの水準を100%とする正規化スコア)126.7% を達成した。学習には単一RTX 3090で約4時間しかかかった。\n\n### Diamond:拡散モデルで次のフレームを「描く」\n\nDiamond(NeurIPS 2024, arXiv:2405.12399)は別の道を選んだ:離散圧縮はせず、拡散モデルを用いて段階的に「ノイズ除去」し次のフレームを生成する。\n\n拡散モデル(Diffusion Model) の核心ロジックは:まず実画像にノイズを付加して破壊し、次にモデルを訓練してノイズをステップごとに還元すること。世界モデルの文脈では、過去フレームと現在のアクションを条件とし、拡散モデルが「ノイズ除去」した結果が次のフレームの予測となる。\n\nDiamondは最も右側のアプローチを選択:クロスアテンション を通じてアクション情報をU-Netに注入し、ノイズ除去プロセスをアクションを条件とするものにした:\n
\nDiamondはAtari 100kで平均HNS 146% を達成し、これまでのすべての世界モデル手法を凌駕し、生成された動画フレームの視覚的品質も5つのアーキテクチャの中で最高であった。\n\n代償は:フレームを1つ生成するのに複数回のニューラルネットワークのフォワードパスが必要で、計算コストはSTORMのような単一フォワードパスの手法と比べて桁違いに高い(実測フレーム生成スループットは約1桁の違いがある)。さらに生成プロセスは微分不可能で、戦略の最適化と直接对接しにくい。\n\n### V-JEPA 2:描画ではなく理解のみ\n\nV-JEPA 2(Meta, 2025, arXiv:2506.09985)は最も「型破り」な存在だ:それは画像を一切生成しない。\n\nその学習目標は:動画内の視覚可能な時空間ブロックを条件とし、マスクされた時空間ブロックの 意味表現 を予測すること。ピクセル値を予測するのではなく。V-JEPA 2はこの基础上でさらにアクション条件を追加し、モデルが「このアクションシーケンスを実行した後、動画の意味表現がどう変わるか」に答えられるようにした。\n
\nここに落とし穴がある:もし2つのエンコーダーが完全に同期して更新されるなら、モデルはすぐに近道を見つけ、「すべての入力を同じベクトルにマッピングする」ことで予測誤差をほぼゼロにできる。これは 表現の崩壊(Representation Collapse) と呼ばれる。EMA(指数移動平均、Exponential Moving Average) はこの近道を塞ぐ鍵となる:ターゲットエンコーダーのパラメータは勾配に直接従わず、ステップごとにもう一方のエンコーダーに「ほんの少し近づく」だけ(例:99%旧値を保持、1%新しい値を吸収する)。常に半テンポ遅れた影のように。両者は決して同期しないため、モデルは固定ベクトルを出力して「ごまかす」ことができない。\n\nV-JEPA 2はMetaによって動画生成器ではなく、世界モデルの基盤コンポーネントとして明確に位置づけられた。その強みは物理世界の 構造的理解 にある:照明、テクスチャなどのピクセルレベルの詳細を気にする必要はなく、意味レベルで「この物体はどこにあるか、手がそれを掴んでいるか」をモデル化する。\n\n### DreamDojo:人間動画からロボット技能を「盗む」\n\nDreamDojo(NVIDIA, 2026, プレプリント, arXiv:2602.06949)が直面するのは、ロボティクス分野で最も現実的な問題:ロボットの操作データは異常に高価であること。\n\n高品質なロボットテレオペレーションデータを収集するには、専用ハードウェア、熟練したオペレーター、実際の物理環境が必要で、コストが非常に高い。しかしインターネットには数十万時間に及ぶ人間の日常操作動画(Ego4Dなどの公開データセットはすでに44,000時間を超える)が存在し、ロボットテレオペレーションデータセットの規模をはるかに超えている。\n\nDreamDojoのアイデア:まずこのバッチの人間動画の大規模事前学習を行い、物理的相互作用の基本法則(重力、物体衝突、手の動き方)を学習し、その後、少数のロボットデータでファインチューニングする。人間とロボットの形態は異なるが、物理法則は同じであり、これが転移の前提となる。\n\nアクションアノテーションの問題はどのように解決するか? 連続潜在アクション(continuous latent actions) を代理として利用する:隣接する2フレーム間の差異から、数十次元のベクトルを自動的に抽出し、「フレーム間で何タイプの変化が起こったか」を表す。それは関節角度でも力モーモでもなく、モデルが動画から自動的に発見した抽象的な動きパターンであり、フレームごとの手動アノテーションを回避する。\n
\n最終的に、DreamDojoは640×480解像度で 推論速度10.81 FPS を達成し、リアルタイムロボット制御の基本要件を満たし、環境をまたいだゼロショット汎化能力を示した。\n\n## 八、議論の的:世界モデルは本当に正解か?\n\n5つのアーキテクチャ、5つの路線。それぞれに賭ける者、資金を調達する者、論文を発表する者がいる。しかし一つの問いが、これらの論文では答えられていない:世界モデルは、本当に正しい方向性なのだろうか?AI分野には、この問いに対して大きく異なる3つの声がある。別々に聞く価値がある。\n\n1つ目の声:世界モデルが唯一の正解の道\n\nこれはYann LeCunと謝賽寧の立場である。AMI Labsは2025年12月に設立され、LeCunが取締役会長、謝賽寧が最高科学責任者に就任。2026年3月時点で10億ドル超の資金調達を完了し、明確に「LLM中心」のシリコンバレーの主流に立ちはだかっている。他人が10億を調達するのはLLMを訓練するための計算資源を買うためだが、彼らが10億を調達するのは、皆がLLMを訓練している方向が間違っていることを証明するためである。\n\n謝賽寧の比喩は広く知られている(インタビュー原文):\n\n「言語は『麻薬』だ。有用だが、近道だ。常に松葉杖に頼って歩いているなら、太腿の筋肉を鍛えることはできない。」\n\nLeCunの説明はより詳細である(2022年の技術レポート「A Path Towards Autonomous Machine Intelligence」参照):LLMが処理するのは人間が発明した記号体系であり、世界の二次的抽象化である。真のインテリジェンスには、連続的な感覚信号から直接物理世界をモデル化する必要がある。彼の核心的主張は 表現こそが世界モデルの最も重要な部分 であり、言語もピクセルも単に表現の出力インターフェースにすぎず、基盤ではないということ。\n\nAMI Labsの技術選択は非生成的なJEPA路線であり、ピクセルを生成せず、意味空間で直接状態遷移を予測する。彼らの賭けは:5年後、今日LLMが主導する状況はひとつの逸脱であったと証明されるというもの。\n\n2つ目の声:LLMにマルチモーダルを加え、融合すれば十分\n\nこれはGoogle DeepMindの路線である。Demis Hassabisは2025年のインタビューで、Geminiの進化方向は「世界モデルになること」であると明言したが、実現方法は大型マルチモーダルLLMにアンブリエント推論能力を重ねることであり、生成的パラダイムを覆して新しく作り直すことではない。\n\nロジックはこうだ:LLMは人間の数千年分の書かれた知識の圧縮表現をすでに蓄積しており、その上に視覚、空間知覚、強化学習を重ねることは、ゼロから新しいアーキテクチャを構築するよりも現実的だ。Gemini RoboticsやGPT-4oのマルチモーダル能力は、すべてこの方向性を体現している。\n\nこの路線にはプラグマティズムの支えがある:LLMは常識推論、言語指示の理解、タスク間の汎化においてすでに十分に強く、これらは恰好純RSSM/JEPAアーキテクチャが最も弱い部分である。Gemini Roboticsのアイデアは:ゼロから物理的直感を構築する必要はなく、LLMに圧縮済みの「世界常識」を借用し、モデルにこれらの常識を連続的な物理的アクションにマッピングさせることだ。\n\nしかしこの路線の批判者にも具体的な論拠がある:LLMが学習するのは統計的相関であり、因果構造ではない。「割れたガラス杯は地面から落ちると割れる」とは教えてくれる
Loading...