理論上、AIはほぼ無限の可能性を秘めているように見える。画像の分類、関節のマッピング、パターンの検出を驚異的なスピードで行うことができる。しかし、実験室を出て人々が実際に動く空間――ジム、工場、クリニック、オフィスなど――に足を踏み入れると、状況は一変する。作業員が持ち上げる際に体を傾けすぎても、AIシステムはそれを見逃してしまう。患者が体重を不均等にかけても、AIはその理由を判断できない。
これらのミスは単純に見えるかもしれないが、今日の多くのAIシステムの現実を反映している:AIは人間の動きを理解するのに苦戦しているのだ。それは、多くのAIシステムが何十億もの静止画像で訓練されている一方で、人間の動きは決して静止していないからである。動きは時間の経過とともに展開され、力、疲労、リズム、意図によって形作られる。これらの要素を理解せずに、AIはただ推測するしかない。
このギャップは、産業全体の安全性、回復、パフォーマンスに影響を与えている。そしてそれは、なぜ多くのチームが今、人間が幼児期に学ぶこと――人々の動きをどう理解するか――をAIに教えることに躍起になっているのかを説明している。より多くの産業が身体的な作業の監視、指導、自動化にAIを活用するようになるにつれ、今日のシステムの限界はますます無視できなくなっている。
なぜAIは物理的世界を誤読するのか
ほとんどのビジョンシステムは物体の認識に優れている。靴と椅子、人と壁を区別することができる。しかし、身体の動きを評価するよう求められた瞬間、本当の亀裂が現れ始める。1つのフレームでポーズをキャプチャできても、その人が安定しているのか、代償動作をしているのか、あるいはフォームを崩しそうなのかはわからない。
また、動きには、AIが解釈するのに苦労する意味の層がある。内側に動く膝は、疲労、可動域の制限、あるいは単に姿勢の変化を示している可能性がある。持ち上げる際に肩が上がるのは、習慣からかもしれないし、痛みからかもしれない。人間はこれらの手がかりを本能的に読み取るが、機械はしばしばそれができない。
環境はさらに複雑さを加える。ジム、クリニック、工場、家庭では、照明が変わり、角度が変わり、他の人々がフレームを横切る。コンピュータービジョンの研究によると、照明、遮蔽、向きの比較的小さな変化でさえ、標準的なベンチマークでうまく機能するモデルであっても、モデルの精度を大幅に低下させることが示されている。
業界全体の研究者たちが同じ壁にぶつかっている。ロボット工学、リハビリテーション、職場の人間工学のための動き分析に取り組むチーム――メタのEgo4Dデータセットからグーグルの身体化AIのためのMotionLM研究まで――はすべて、実際の動きがいかに予測不可能であり、今日のモデルが制御された環境の外でいかに簡単に混乱するかを強調している。
FlexAIの共同創設者であるアモル・ガラット氏が私に語ったように、「AIにフォームを見るよう教えることは、物体を認識するよう教えることとは異なる。私たちは写真の中の猫を探しているのではない。時間を超えて運動連鎖を追跡し、関節が負荷の下でどのように相対的に動くべきかを理解しているのだ」。この違いが重要なのは、今日使用されている多くのシステムが一般的な視覚タスク向けに構築されており、身体が実世界の制約の下でどのように振る舞うかを理解するようには設計されていないからだ。
正確な動きに依存する産業にとって、この不足は壊滅的な結果をもたらす可能性がある。モデルが作業員の持ち上げ方、患者の歩き方、アスリートのジャンプからの着地の仕方を誤って解釈すると、怪我、パフォーマンスの低下、場合によっては致命的な事故につながるパターンを見逃してしまう。
動きの知性を遅らせるデータギャップ
最大の障害の一つは、現実的で注釈付きの動きデータの不足である。モーションキャプチャ研究室は長い間高品質のデータセットを収集してきたが、それらは制御された条件に依存している:特殊なカメラ、マーカースーツ、固定照明、振付けられた動き。これらのデータセットは科学的には価値があるが、倉庫、クリニック、ジムでの日常生活に似ていない。
最近のバイオメカニクス研究はまた、人間の動きが人々、疲労レベル、怪我の履歴によってどれほど異なるかを強調している。その変動性こそ、AIが信頼できる判断を下すために見る必要があるものだ。しかし、ほとんどの消費者向けビデオには、これらのシステムが依存するようなバイオメカニクスのラベルが含まれていない。そして、その専門家のガイダンスがなければ、AIは動きが無害なのか、何かが間違っている兆候なのかを判断できない。
このため、この分野の多くのチームが独自のデータセットを構築することを余儀なくされている。FlexAIはその一例だ。FlexAIの創設者たちが実際のジムでの動きのデータを探したとき、適切なものはほとんど見つからなかった。「最小限の資金で、フィットネストレーナーの指導の下、何千もの録画サンプルを見るという形で、大規模なデータセットをゼロから構築することを余儀なくされた」とCEOのアミン・ニリ氏は述べた。すべてのフレームには、筋力トレーニングで重要な腰の位置、膝の動き、脊椎の配列などのラベルが必要だった。
同様の課題は他の分野でも現れている。リハビリ研究者は関節の不安定性のためのカスタムデータセットを構築する。スポーツテクノロジー企業は実際の変動を捉えるために様々なスキルレベルのアスリートを記録する。職場の安全チームは、疲労と反復が姿勢にどのように影響するかを理解するために、実際の作業現場からの映像を収集する。誰もが、一般的なポーズ推定データセットが野生の人間の動きの複雑さを反映していないことを発見している。
適切なデータがあっても、スピードとプライバシーがまだ障害となる。フィードバックは動きの途中で調整を助けるために瞬時に届く必要がある。しかし、ビデオをクラウドに送信すると、しばしば遅延が生じ、ストレージとアクセスに関する新たな懸念が生じる。これが、動きのガイダンスに取り組む企業がリモートサーバーではなくデバイス自体により多くの計算を押し込んでいる理由の一つだ。「レップの途中でフィードバックを与えようとするとき、ミリ秒単位の遅延が重要になる」とガラット氏は指摘した。
人々の動きを理解するための新たな取り組み
AIが人間のように動きを理解することを学べば、その影響はスマートフォンのフィットネスアプリをはるかに超えて広がる可能性がある。理学療法チームは遠隔で回復を追跡し、患者が自宅でどのように実際に動くかに基づいて計画を調整できるだろう。職場の安全プログラムは、記録可能な怪我になる前に、危険な持ち上げパターンや不自然な姿勢を特定できるだろう。スポーツ組織は、バイオメカニクス研究室が到達できるよりもはるかに多くのアスリートに動作分析を提供できるだろう。
残された最も難しい課題は、カメラが見ているものの背後にある人間の状態を理解することだ。FlexAIのモデルは持ち上げ中のフォームの崩れや代償パターンを検出できるが、それらのパターンが疲労、可動域の制限、古い怪我、あるいは単にテクニックに関する混乱から来ているのかをまだ説明することはできない。リハビリや職場の環境でも同じことが言える。動きの変化は、誰かが疲れている、痛みがある、ストレスがある、あるいは単に新しいタスクに適応しているということを意味するかもしれない。
そのギャップを埋めるには、おそらくコンピュータービジョン以上のものが必要だろう。それは、動きのデータと自己報告の入力、ウェアラブルの信号、環境からのコンテキストを組み合わせることを意味する。また、透明性と信頼に関する疑問も生じる。労働者、患者、アスリートは、自分の動きのデータがどのように使用され、どのような決定に影響するのかを知りたいと思うだろう。
現在のところ、動きの知性に取り組むチームは、人間の専門家に取って代わることよりも、彼らの影響力を拡大することに関心を持っている。ニリ氏が言うように、「私たちはトレーナーに取って代わるのではなく、専門知識をアクセスしやすくしているのだ」。そのマインドセットが、この次のAIの波を地に足をつけたものにしているのかもしれない。目標は機械に制御を委ねることではなく、人々に自分たちがどのように動き、それが健康、安全、パフォーマンスにとって何を意味するのかについて、より明確で早期の洞察を与えることだ。
人間の動きはAIにとって最も難しいテストの一つになりつつあり、その解決は単により大きなモデルからは生まれない。それはより良いデータ、より良いコンテキスト、そして人間の身体がいかに複雑であるかへのより深い敬意から生まれるだろう。
ガラット氏にとって、前進の道は明確だ:AIは人々に追いつくことを学ばなければならず、その逆ではない。「未来は、リアルタイムで身体を導くのに十分な速さと深い理解を持つシステムのものになるだろう」



