LLMはなぜビデオゲームが苦手なのか?推論能力とリアルタイム制御の乖離を分析
LLMとゲームプレイの意外な乖離
CursorやClaudeなどのLLMを利用すれば、単一のプロンプトからプレイ可能なゲームコードを生成できる時代になりました。しかし、LLMに「実際にゲームをプレイさせる」となると、話は別です。NYU Game Innovation LabのディレクターでありModl.aiの共同創設者であるJulian Togelius氏は、LLMはゲームベースのAIベンチマークにおいて「極めて能力が低く」、単純な探索アルゴリズムよりも劣るパフォーマンスしか出せないと指摘しています。
2025年5月には、GoogleのGemini 2.5 Proが『ポケットモンスター 青』をクリアしたという事例が報告されました。しかし、これは人間よりも遥かに時間がかかっており、操作のためにはカスタムソフトウェアが必要でした。ここから、LLMが直面している技術的な壁が見えてきます。
なぜ「コード生成」はでき、「プレイ」はできないのか
エンジニアにとって不可解なのは、ゲームの仕組み(コード)は書けるのに、その仕組みの中で動くことができない点でしょう。Togelius氏は、コーディングは「行儀の良いゲーム」であると分析しています。コード生成においては、「コンパイルが通るか」「テストをパスするか」という即時的かつ粒度の細かい報酬(フィードバック)が得られるため、LLMの学習形式と適合しやすいとされています。
一方で、実際のゲームプレイには以下の要素が不可欠であり、それがLLMの弱点となっています。
- 空間認識の欠如: LLMのトレーニングデータには、物理的な空間認識に関する情報が不足しています。これにより、動的な環境でのポジショニングや移動といった空間的な推論が困難になります。
- 反復的な改善プロセスの不在: ゲーム開発やプレイは、試行錯誤を繰り返すイテラティブなプロセスです。LLMは自らプレイして検証し、その結果に基づいて戦略を修正するというループを回せないため、斬新なゲームの創造や高度な攻略が困難であるとされています。
現実世界よりも「多様」で「困難」なゲーム環境
一般的に、AIには現実世界(自動運転など)が最も複雑であると考えられがちです。実際にWaymoなどは、トレーニングループに「ワールドモデル」を取り入れて走行制御を実現しています。しかし、Togelius氏は、ビデオゲームの方がAIにとって「より困難」であるという視点を提示しています。
現実世界には一貫した物理法則が存在しますが、ビデオゲームはタイトルごとにメカニクス(操作体系)や入力形式が全く異なります。この極端な多様性が、汎用的なゲームAIの構築を阻んでいます。
Google AlphaZeroのようにチェスや囲碁で圧倒的な強さを誇るAIも存在しますが、これらは特定のルールに特化した非LLM型のAIであり、別のゲームに適用するには再設計と再学習が必要です。多くのゲームをこなせる汎用的なAIの実現には、まだ高いハードルがあると考えられます。
まとめ:今後のAIに求められる能力
LLMが『ポケモン』などのゲームで成果を出せた要因は、ネット上に膨大な攻略ガイドやデータが存在していたためであると分析されています。つまり、現在のLLMの「プレイ能力」は、推論ではなく「記憶の再構成」に依存している側面が強いと言えるでしょう。
真に動的な環境で動作するAIを実現するには、単なるテキストベースの推論ではなく、空間認識能力を備え、環境からのフィードバックをリアルタイムに学習に組み込める「ワールドモデル」的なアプローチが不可欠になると考えられます。
参考: Why Video Games Still Baffle AI Models - IEEE Spectrum (https://spectrum.ieee.org/ai-video-games-llms-togelius)
読み込み中...