2026.05.30 12:00

AIが物理世界を理解するカギは、言語だけでなく多様な感覚にある──専門家たちが議論

John Werner | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

stock.adobe.com

人間のように感覚から学ぶAIは、言語先行のAIを上回るのか

議論の一部は、賢いAIと人間を比較する方向にも進んだ。

「生物学から学ぶなら、人間は言語を学ぶ前に物理世界について学びます」とグレイリンは述べた。「ですから、マルチモーダルな学習モデルを作るのは実際に理にかなっています。脳をモデル化するのであれば、すべてのモードから同時に学ぶことには大きな意味があります。実際、複数の言語を学ぶ子どもを見ると、最初は少し遅いかもしれませんが、最終的にはそれらすべての言語の間を自然に翻訳できるようになります」。

「こうした議論は非常に興味深いものです」とリャンは指摘した。「しかし経験的には、大規模なネイティブ・マルチモーダル学習が、まず言語モデルを訓練し、その後で別のモダリティを後付けする方法を上回るという証拠は見えていません。では、こうしたモデルのアーキテクチャ、訓練方法、データの収集や提示の仕方について、何か変える必要があると思いますか」。

これに対しグレイリンは、自動運転技術に触れた。初期の取り組みは大量のラベル付きデータから始まり、その後、より優れたLLMが高次の推論や処理をもたらした。そこに進歩の形が見えるという説明だった。

シッパーは、自社ではシミュレーションデータのスカラー場出力や、物体のメッシュを使って訓練していると語った。

デバイスの外に集めたデータを出さない、パーミッションレスなシステム

登壇者たちがプライバシーとユーザーの主体性の必要性について議論する中で、グレイリンは、データ共有を前提にしない仕組みを標準にすべきだと主張した。

「これはデフォルトでなければなりません」と彼は述べた。「データが収集された端末の外へ、システムがそのデータを共有しないこと。そして、そのデータはユーザーのためだけに使われることです。ユーザーが別のプラットフォームと共有したいのであれば、それは理にかなっています。しかし、プラットフォームや端末メーカー、広告事業者によって自動的に取得されるのであれば、プライバシーをめぐる大きな反発が起こるでしょう」。

リーはここでも、自社の仕事という観点からこの問題を語った。

「私たちは政府、国家安全保障、防衛分野のユースケースについて考えています。その業界では、プライバシーとセキュリティはいっそう重要です」。

「オンプレミス、つまり自社運用型のソリューションに対する需要は非常に強い」とシッパーは述べた。「しかし、多くの人は、それがクラウド化の進むインフラとどう両立するのか、また技術スタックのさまざまな部分を自社で持ちたいという要望とどう両立するのかを、まだ十分に整理できていません。だからこそ、非常に興味深いビジネスモデルが生まれつつあると思います。もちろん、もっと哲学的で大きな問いも出てくるはずです」。

「人々が機械に何もかも指図させるようになるのを、どう防げばよいのでしょうか」とグレイリンは問いかけた。「あらゆるものが感知されるようになると、機械はただ答えを与えるようになります。それは自動的に進み、私たちは何をすべきか、どこへ行くべきかを機械に教えてもらうことに、ますます依存するようになるでしょう。車を運転するときには、すでに今日そうしています。しかし、それが生活のあらゆる面に広がっていくのです」。

触覚や嗅覚を捉えるセンサーで、AIに人間の感覚を持たせる

「私は触覚と嗅覚に非常に期待しています」と、リャンは締めくくりとして述べた。「皆さんの何人かもすでに触れていましたが、私たちには物理世界を理解するAIが必要です。そして、物理世界を理解するには、人間と同じように物体を感じ取り、物体と相互作用しなければなりません。

では、触覚を捉える本当に優れたセンサーをどう作るのか。さまざまな物体の匂いを捉えるセンサーをどう作り、それを使って何かが良いものなのか悪いものなのか、あるいは危険なのかを認識する方法にどう結びつけるのか。これらはいずれも、人間の感覚を拡張し、それをAI機械に埋め込むことを目指す非常に興味深い問いです。

私たちは、デジタル媒体を通じて匂いを伝え、別の人が何かを身につけてその匂いを再現できるシステムを作ってきました。言語のほかにも、人間の経験の一部である感覚は数多くあります。動画や音声はもちろん、それ以外の感覚も研究する価値があります」。

これは、現在人々がAIで何をしているのかを知るうえで、非常に興味深い探求だった。触覚、味覚、そして嗅覚？

皆さんはどう考えるだろうか。コメントで知らせてほしい。

（forbes.com 原文）