HappyHorseとSora
HappyHorseと「Sora」(ソラ)とを比較したがる人もいる。Soraは、OpenAIが近く終了させる予定の動画生成モデルだ。ChatGPTに尋ねたところ、製品としてのSoraは終了するが、基盤となる技術自体は残り続けるだろうという答えが返ってきた。それは当然のことだ。
ここで重要なのは、プラットフォームとしてのSoraはリーダーボード(順位表)に載ることもなく、1フレームあたりの品質で競うこともなく、最終的には何も競わなくなるという点である。したがって、HappyHorseが今や多くのリーダーボードでSoraを上回っているという事実も、やがて意味を失うことになる。
しかし現時点では、アリババのこのモデルが、直接対決の中で好意的な評価を集めている。
HappyHorseの仕様はあいまいだ
オンラインでHappyHorseの仕様一覧を見つけたものの、それが載っていたページはどうもAIが書いたように見えたという留保付きである。
さらに調べると、HappyHorseの仕様は分析サイトには載っているものの、独立した機関による検証は行われていないことが分かった(本来はHugging Faceにあるはずだが、そこにアクセスすると440エラーが返ってきて、結局はHappyHorseの自社サイトでしか見つけられなかった)。つまり、ある種の「言った者勝ち」の状態なのである。以下がその一覧だ。
・150億パラメータ
・40層の統合型トランスフォーマー(Transformer)
・8ステップのDMD-2蒸留、音声同期機能
・多言語リップシンク(口の動きと音声の同期)機能
・H100(エヌビディアの高性能GPU)で、5秒・1080pのクリップを約38秒で生成
これらは本物らしく見えるだろうか。
話半分に受け取っておくのがよい。
中国は動画生成で勝ちつつあるのか?
輸出規制なども絡む米中の激しいAI開発競争を踏まえると、「今の動画生成で中国が勝ちつつあるのか」という問いを立てる意味はあるだろう。
TechBullionのシャビール・アフマドによる次の指摘を見てほしい。
「過去1年間、Soraは映画のような長尺シーケンスで世界中の注目を集めました。しかし、話題を呼ぶデモの表面下で、中国のチームは競争環境を塗り替えるほどの速さで改良を重ねてきました。Kling 2.6などのモデルは、物理法則の一貫性、キャラクターの安定性、複数ショット間の整合性、人物や物が多く入り込んだ密なシーンの処理、現実世界に即した動きの論理性といった点で大きな改善を示しています。これらは、広告、Eコマース、教育、ショート動画、企業向けワークフローにおいて、はるかに重要となる能力です」。
この文の「Kling 2.6のようなモデル」の部分を、現時点では「HappyHorseのようなモデル」と置き換えても、まったく同じことが言えるだろう。
アフマドは自身でも一定の留保を付けつつ、本筋に戻ってこう述べる。
「SoraやRunway Gen-4.5は、物語性のある映像制作、芸術的なスタイル制御、ハイエンドな合成処理では依然として優位を保っています。しかし、業界が『インフラとしての動画』の時代へ移行するにつれ、勝敗を分けるのは映画的な見せ場ではなく、コスト、安定性、速度、使いやすさ、そして改良の速さになるでしょう。今後6カ月で新たなブレークスルーの波が訪れる可能性はありますが、すでに1つの現実ははっきりしています。中国の動画生成モデルは、最も重要な場所──すなわち現実世界の用途──で、静かに競争を制しつつあるのです」。
これは、中国と競争している側にとってかなり厳しい指摘、少なくとも挑戦状といえる。なぜなら、ほとんどあらゆる意味で、重要なのは現実世界での使い勝手だと考えるのが自然だからだ。
名前が何であれ
今回話題となっている動画生成ツールは、私がこれまで多くの新モデルで見てきた1つの傾向も引き継いでいる。たとえば「Mythos(ミュトス:神話)」「Muse(ミューズ:女神)」「Claude(クロード:学者の名前?)」、そしてさらに分かりやすい例として「Spud(スパッド:じゃがいものあだ名)」といった名前である。
こうしたモデル名は、私にはどうも真面目さに欠けるものに映る。モデル名を「XRZ356」のような記号にすべきだと言いたいわけではないが、「HappyHorse(ハッピーホース:幸せな馬)」は奇妙な選択に思える。あるいは、翻訳の過程で何かが失われているのかもしれない。
とはいえ、どう呼ぶにせよ、OpenAIが動画生成製品の提供方針を唐突に転換したことで生じた空白に、アリババのこの新モデルが飛び込む構えを整えているのは確かだ。今後の展開に注目したい。


