グーグルはアップデートを告知したブログ記事で、「Veo 2は現実世界の物理法則や、人間の動き・表情の微妙な差異をより深く理解しており、その結果、全体的なディテールとリアリズムが向上しています。動画生成モデルはしばしば余分な指や予期せぬ物体など、不必要な要素を『幻覚』として生み出しがちですが、Veo 2ではこれらの発生頻度が減り、より自然な出力が得られます」と述べている。
グーグルが最初にVeoを発表したのは2023年5月の開発者会議であるGoogle I/Oだ。Veo 2はOpenAIのテキスト入力型動画生成ツールSoraと正面から競合する存在であり、現時点ではGoogle LabsのVideoFXプラットフォーム上で、ウェイティングリスト登録者のみが利用可能となっている。クリップの長さは8秒に、解像度は720pに制限されている。グーグルの研究者らはすでにSNS上でサンプル動画を共有し、その潜在力をアピールしている。
グーグルは「Veo 2は映画撮影独自の言語を理解しています。ジャンルを指定したり、レンズを選んだり、映画的な効果を提案すれば、Veo 2がそれを反映した映像を生み出します」と述べる。実際、「cinematic, 35mm film」といった表現をプロンプトに含めた際の結果例が紹介されている。
避けられない「Veo対Sora」の激突
Veo 2がより幅広く利用可能になれば、オンライン上でVeoとSoraを比較し、その性能や作風の違いを競う「対決」的な動画が多数出回ることが予想される。OpenAIは米国時間12月9日、生成AIを用いた動画生成ツールSoraを公開し、ChatGPT PlusまたはProといった有料サブスクリプション加入者であれば誰でも利用可能にした。しかし同日中にはアクセス過多で利用制限が再びかかり、Sora.comを訪れたユーザーにはツール利用を待つよう促すメッセージが表示されていた。
アカウント登録は13日に再開されたが、OpenAIは現在までに何人がSoraに登録したのか明らかにしていない。
Soraはテキストプロンプトから短く高品質な動画を生成でき、ユーザーは自前の映像素材を取り込んでリミックスやブレンドも可能だ。OpenAIは今年2月にSoraを初披露したが、当時はアーティスト、デザイナー、映画制作者など一部の限られた層にのみ開放していた。
Introducing Veo 2, our new, state-of-the-art video model (with better understanding of real-world physics & movement, up to 4K resolution). You can join the waitlist on VideoFX. Our new and improved Imagen 3 model also achieves SOTA results, and is coming today to 100+ countries… pic.twitter.com/FtwNKyicEc
— Sundar Pichai (@sundarpichai) December 16, 2024