「このシステムの生成能力は、既存のメソッドを大きく上回るもので、特に音声などの弱い入力に基づいて、極めてリアルな人間の動画を生成する。画像の入力は、縦長や半身、全身などのあらゆるアスペクト比に対応し、さまざまなシナリオにおいて、従来よりもリアルで高品質な結果を提供する」とバイトダンスは2日に論文投稿サイトarXivで発表した研究論文で述べている。
OmniHuman-1のプロジェクトページでは、このツールの能力を示すサンプル動画が公開されている。その一つのアインシュタインの動画では、著名な理論物理学者の大学の講義を、現代の高画質映像でリアルに再現している。
南カリフォルニア大学(USC)のフレディ・トラン・ネイガー准教授は、このサンプル動画を見た後のインタビューで、「非常に印象的だ。もしも、ハンフリー・ボガートを復活させて映画に出演させようとしたら、どうなるかはわからないが、スマートフォンのような小さな画面で見る分には、これらの映像は非常に精巧だ」と述べている。
バイトダンスとTikTokは、このツールによって人間の映像を最もリアルに見せる生成AIのテクノロジー競争の中で、大きな存在感を示すことになる。こうしたツールは、さまざまな分野で急速に利用が広がっている一方で、ディープフェイクが政治的プロパガンダに使用される懸念を引き起こしている。
ニューヨーク大学の非常勤教授で、新興技術のマーケティングコンサルタント企業PitchFWDの創設者のサマンサ・G・ウルフも、OmniHumanのようなツールには可能性とリスクの両方があると見ている。
「たった1枚の写真から、本当に話しているかのように、リアルに動く映像を作り出す技術は非常に興味深いが、潜在的に深刻な影響をもたらす可能性がある。企業のリーダーや政治家の偽の映像が作られ、誤った発言をしているように見せることで、企業や国に多大な影響を及ぼす可能性がある」と彼女は指摘した。
バイトダンスのチームは、OmniHumanをテキストや音声、体の動きなどの複数の入力を組み合わせたアプローチと、1万8700時間を超える人物の動画データでトレーニングしたと述べている。しかし、同社はその訓練データの詳細についてのコメントに応じていない。
OmniHumanは、1枚の写真から動画を生成する最初のAIツールではないが、ネイガー准教授は、バイトダンスが持つ膨大なデータが、このテクノロジーを競合と一線を画すものにしていると述べている。「もし、あなたがTikTokに動画を投稿したことがあるなら、その映像がバイトダンスのバーチャルヒューマンのデータベースの一部になっている可能性が高い」と彼は指摘した。
(forbes.com 原文)