2019.09.12 08:30

AIで「現実と区別がつかない映像」を生成　気鋭の起業家が描く映像革新

新國翔大 | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

（左）EmbodyMe代表の吉田一星　（右）インキュベイトファンドのゼネラル・パートナーの村田祐介

EmbodyMeが提供するXpressionは50台のカメラと偏光LEDライトを使ってキャプチャした、高精細な3Dフェイシャルモデルをディープラーニングの学習データとして使っている。前処理が一切なく、モバイルでもリアルタイムで動くのが特徴だ。

吉田によれば、「競合のSynthesizing Obamaという技術はオバマの表情を動かすのに17時間のオバマ自身のビデオが必要で、それを2週間かけて前処理する必要がある」という。また昨今、ディープフェイク画像やフェイクムービーが問題視されているが、EmbodyMeは電子透かしの技術を取り入れており、「悪用されるリスクは少ない」と吉田は語る。

次世代のコンピューターグラフィックスの会社に

現在、おもしろアプリとして取り上げられる機会の多いXpressionだが、吉田はこのアプリでマネタイズするつもりもなければ、メイン事業として1本化する予定もないという。「Xpressionはよりディープラーニングの精度を高めるための手段のひとつ。より多くの人に使ってもらい、データを溜めていくのが目的だ」という。

村田も「吉田さんには『マネタイズを追い求めなくていい』と常々言っています。大事なのは短期的な売上ではなく、長期的な技術革新。伴走しながら、吉田さんたちが研究開発に集中できる環境をつくるようにしています」と語る。

では、EmbodyMeは何を目指すのか。吉田は、「現実と区別がつかないリアルな映像を誰でも簡単にリアルタイムで生成できるようにする。目指すは次世代のコンピューターグラフィックスの会社」と語る。

「現在のコンピューターグラフィック技術は大量の人、大量の時間がかかっています。例えば、映画『ジャングルブック』を制作するのに、800人が関わり、レンダリングに1台のコンピュータで換算すると4200年分の時間がかかっている。これを50000台のコンピューターに分散して、ようやく数ヶ月の処理時間で完成しているわけです」

現在のXpressionでは“カメラに写った顔から表情を動かす”ことしか出来ないが、声や文字だけから表情を動かせるようにする技術を間もなく発表予定で、今後、研究開発を重ねていき、2020年中旬には頭部や体全体を動かせたり生成できるようにし、2022年中旬には人以外でもあらゆるものを生成できるようにすることを目指す、という。

「Snapchatから“子供フィルター”がリリースされたり、FaceAppから“老化フィルター”が登場したりしている。ここ数年でフェイスエフェクトが一気に広まり、市場規模も大きくなってきている。ここからが大きく勝負していくタイミング」と語る村田。2億3000万円の資金調達を経て、EmbodyMeはさらに研究開発のスピードを上げていく。