その詳細は、アップルと共同研究を行なっているコーネル大学の研究チームが最近発表した研究論文に書かれている。「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs(Ferret-UI:マルチモーダルLLMを用いたモバイルUIの正確な理解)」と題されたその論文は、 画面に表示されているもの、具体的にはiPhoneのディスプレイのようなユーザーインターフェースの要素を理解するために使用できるマルチモーダル大規模言語モデル(MLMM)について詳しく述べている。
豊富な訓練データを使用することで、アイコンを選んだり、アイコンの検出、テキストの抽出、ウィジェットの解析、面に表示されているもののテキストでの説明を行ない、インターフェイスの要素を解析したり、自由形式の指示やプロンプトに従いながら操作することなどができる。
2023年10月に公開されたFerretは、写真や画像を解析して何がそこにあるかを認識するようにデザインされていた。Ferret-UIと改名されたこのアップグレード版は、iPhoneでFerret-UIとを使用するユーザーにいくつかの利点を提供し、AIを搭載した改良型のSiriに簡単に統合できる。
アプリの種類にかかわらず画面の内容を解釈できることで、アクセシビリティ機能の強化が期待され、そのアクションなどを事前にプログラムする必要がなくなる。複雑な作業を行なったり、iPhoneの見つけにくいオプションを探すときには、Siriに複雑なアプリを開いたり、メニューの奥に隠れたわかりにくい機能をお願いすることができる。
また開発者は、Ferret-UIをテスト用ツールとして使用し、MLMMにSNSの経験がほとんどない14歳のように行動させたり、孫とFaceTimeを使ってやりとりをしようとする75歳のユーザーのふりをさせたりもできる。
グーグルは、AIファーストのスマートフォンを10月4日に発売した。iPhone 15の発売から約3週間後のことだった。アップルは、写真の処理やテキストの自動修正の裏にいるAIの改良について広くアピールしなかったため、AIの利用においてAndroidが先行し、グーグルに期待が集まることになった。
アップルの開発者向け会議であるWWDCは6月に開催される。アップルは9月のiPhone 16とiPhone 16 Proの発売にむけてベースを固める中、同社のAIに関する計画を公式に説明することになるだろう。
それまでは、アップルのAIへのアプローチを学術面から見ていくことになる。
(forbes.com 原文)