GoogleがGemini Omniを発表:あらゆる入出力を統合した最強のマルチモーダル動画生成モデルが登場
予想通り、先日リークされていたGemini Omniが正式に発表された。
しかし、世間が期待していた単なる「動画生成モデル」とは異なり、Googleが定義するGemini Omniは、「あらゆる入力を受け取り、あらゆる出力を生成できる」モデルである。動画はその能力のほんの一部に過ぎない。
DeepMindのCEOであるデミス・ハサビスは、発表会でGemini Omniの複数のデモンストレーションを披露した。自身の写真をアップロードすると、Omniは人物が置かれている現実環境を瞬時に変更し、多様なスタイルへ自在に調整することが可能だ。
単純な円を描けばブラックホールを生成し、夕暮れの散歩シーンでは異なるスタイルの環境をレンダリングする。あらゆる素材が、Omniを通じて新たな現実を構築するためのキャンバスとなる。
Gemini Omniの中核的な能力は、テキスト、動画、画像、そしてインタラクティブなシミュレーションを単一の生成フレームワークに統合した点にある。
具体的には、Googleが現在保有する最先端の生成メディアモデルである、画像モデル「Nano Banana」、動画生成モデル「Veo」、そして世界モデル「Genie」の能力を統合している。
例えば、「タンパク質折り畳みの解説アニメーションを作成して」と入力すると、単なるテキスト説明ではなく、αヘリックスやβシート構造のデモンストレーションを含む教育用ビデオを直接出力する。
プロンプト:claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate
一部のユーザーは、すぐにOmniとSeedance 2.0の詳細な比較を行い、生成される品質、ダイナミクス、一貫性を検証している。全体として見ると、Seedance 2.0は非常に安定したパフォーマンスを見せているが、Omniは特定のシナリオにおいてSeedanceを凌駕する表現力を発揮している。
公式ブログによれば、Omniの能力は特に「ビデオ編集」と「物理シミュレーション」に集中している。
対話形式でビデオを編集する、「コントロール可能」なAI動画時代へ
教育ビデオの作成以外に、ビデオ編集はOmniの主要な活用シーンの一つだ。
Omniでは、自撮り映像や任意の素材をアップロードし、自然言語を用いて人間のビデオ編集者とチャットするように、対話形式でビデオを繰り返し修正し、スタイルの調整や要素の追加を行うことができる。このインタラクションロジックは、以前のNano Bananaによる画像編集のアプローチを継承したものだ。
公式デモでは、非常にユニークな能力が披露された。
鏡に触れる手の映像をアップロードし、Omniに「人が鏡に触れたとき、鏡が液体のように美しい波紋を広げ、人の腕が反射素材に変わるようにして」と指示する。
すると、驚くべき結果が得られた。映像全体が完全に再描画されるのではなく、人物の動作は維持されたまま、鏡の物理状態と腕の材質だけが正確に置き換わったのだ。
さらに特筆すべきは「多ターン対話能力」であり、新しい指示を出すたびに、前回の結果に基づいて継続的に生成が行われる。
Gemini Omniは、人物、環境、物理効果、およびシーンのコンテキストの一貫性を最大限に維持しようとする。
ピクセルだけでなく、世界の物理法則を理解する
物理シミュレーションは、Gemini Omniにおいて最も技術的に高度な部分である。Googleは、運動エネルギーや重力などの現象のシミュレーションにおいて「質的な飛躍」があったと述べている。よりリアルなビデオ、画像、およびインタラクティブなシミュレーションコンテンツが、Gemini Omniを通じて生成可能になった。
「連鎖反応のレール上を高速で転がるビー玉」の生成を要求すると、Omniは重力と運動エネルギーに対する正確な理解を示した。
より複雑な例として、「アルファベットの物品ビデオ」がある。26個の英文字に対し、それぞれに対応する珍しい物体(Cならカピバラ、Dならミラーボール、Lならラバランプなど)を表示させる指示を出した結果、Omniは文字と物体の対応関係、画面のリズム、字幕形式、フレーム数、音楽スタイル、そしてビデオの締めくくり方までを同時に処理した。これは単なる表面的な視覚的マッチングではなく、言語、画像、そして意味を深く結びつけて処理していることを示している。
現在、Gemini Omni FlashはすべてのGoogle製品に同期して導入され、世界中のGoogle AI Plus、Pro、Ultraのサブスクリプションユーザーに提供されている。GeminiアプリおよびGoogle Flowを通じて利用可能だ。
Geminiのウェブ版およびアプリ版では、「ビデオ生成」を選択することでOmniの機能を体験できる。
Geminiは、「若くてファッショナブル」「モンタージュ」「アメリカンコミック」「話すペット」「パーティー招待状」「月」「変身絵文字」「グラフィティエフェクト」「ピクセルアドベンチャー」など、18種類のプリセットスタイルを提供している(Proアカウントでは1日3回まで生成可能)。
実際に「女装してJK服を着てツインテールにした男性の自動車系YouTuberが、車の前に立っている」というプロンプトを入力し、プリセットの「80年代MVスタイル」を適用したところ、非常にインパクトのあるビデオが生成された。
また、GoogleはYouTube ShortsおよびYouTube Createアプリのユーザーも今週からこれらの機能を無料で利用できるようになると述べている。今後数週間のうちに、APIを通じて開発者や企業顧客にもGemini Omniが開放される予定だ。
Omniは画像、テキスト、ビデオ、オーディオをリファレンス素材として読み込み、それらを一つの一貫した出力へと統合できる。
また、AIによる偽造への懸念を払拭するため、Omniで生成されたすべてのビデオには、肉眼では見えない「SynthID」デジタルウォーターマークが埋め込まれ、簡単にソースの検証が可能になることを強調している。
さらに、実在の人物の顔を扱うため、外見と声をクローンできる「Avatar(デジタル分身)」機能も導入された。
この一年、GoogleはNano Bananaを用いてGeminiのマルチモーダル能力を画像生成と編集シーンまで押し上げた。
今、Gemini Omniはその同じアプローチをビデオ領域に持ち込み、ビデオ生成における「Nano Bananaモーメント」を創出しようとしている。
ビデオクリエイターにとっての直接的な影響は、制作ハードルのさらなる低下だ。スマートフォンで撮影したビデオ、一枚のリファレンス画像、一曲の音楽が、すべて対話的に編集可能な素材となる。
より大きな変化は、ビデオが一言で継続的に書き換え可能になることで、コンテンツ制作の速度、真偽検証、著作権の境界、そしてプラットフォームのガバナンスが、新たな局面を迎えるということだろう。
関連記事
Loading...