これにより、デバイスの限られたメモリやバッテリーに過度な負担をかけることなく、大規模モデルに匹敵する高度な処理能力と、かつてないほど自然で表現豊かな音声合成をデバイスのローカル環境で実現する。
「オンスクリーンコンテキスト(画面認識機能)」も進化したSiriの機能だ。Siriはユーザーが端末のディスプレイ上で見ているウェブページ、メモのテキスト、アプリのUI、さらには画像を瞬時に理解する。例えば、画面に表示された風景写真について「この風景はどこで見られる?」とSiriに聞くだけで、現実世界に存在する場所であれば位置情報を解析しながら画像の詳細を伝える。続けざまに、その画像の場所にたどり着くためのルート検索をマップアプリと連動して提供する機能もある。
さらにSiriがデバイスのストレージ内に保存された数千、数万のメッセージや写真の中から必要な情報だけを見つけ出し、複数のアプリをまたいで「家族の写真」や「愛犬の写真」を推論、提示する機能も実現できる。
グーグルとのパートナー戦略の内容とは
アップルは「第3世代」へと進化するAFM 3 ファミリの構築にあたり、グーグルと戦略的なパートナーシップを結んだ。この協力関係により、前世代から4つのコアモデル──AFM 3 Core、AFM 3 Core Advanced、AFM 3 Cloud、AFM 3 Cloud(Image)──の、それぞれの精度が飛躍的に向上するという。これらのモデルはAppleシリコンのためにカスタムビルドされ、グーグルのGemini Frontierモデルの出力を活用しながら最適化を図った。
フェデリギ氏は壇上で「アップルのシステムは、グーグルが提供するGeminiアプリ、およびグーグルがクライアント向けに展開するモデルや、これを配信するためのインフラ、および参照するナレッジベースも一切使っていない」ことを強調している。つまり、アップルの新しく再構築されたSiriはグーグルによる既存AIサービスや仕組みには全く依存していないということだ。
さらに、複雑な推論を必要とするタスクに向けた最強のモデル「AFM Cloud Pro」を本番環境で動かすために、アップルは自社のセキュアなPrivate Cloud Compute(PCC)のインフラを、Google Cloudの中にNVIDIAのGPU環境をベースとして構築した。
これにより、デバイスのローカル処理からクラウドに重い負荷がかかる処理まで、ユーザーのリクエストに応じて最も応答が速く適格なモデルを動的に割り当てることが可能になる。つまり、グーグルの強力な計算インフラと基礎モデルの恩恵を受けつつも、それを従来のアップルによる独自のセキュアなエコシステムの上に築くという最適解を導き出した。


