2026.06.08 18:00

アップルが整える"AIのため"のAppleシリコン──半導体設計にみるアップルの現在位置

本田雅一 | Official Columnist ジャーナリスト

著者フォロー

記事を保存

著者フォロー

記事を保存

AppleシリコンのSenior Product Manager、ダグラス・ブルックス（LinkedInより）

取材を終えて──共有メモリの潮流の中で

さて、ここから先は、ブルックスの発言から離れて、業界全体を見渡した考察を残しておきたい。

マイクロソフト、グーグル、NVIDIAなど、「AI」というトレンド軸で見るとき、アップルの周囲には、部分的に事業領域が重なるライバルがいて比較しがちだ。しかし、それぞれが追求している方向性は異なる。マイクロソフトはソフトウェアとクラウドの上に、グーグルはクラウドに集まる情報の上に、NVIDIAは演算そのものへの要求に応えることで、それぞれの世界で君臨している。

こうした中で、アップルほど、エンドユーザーが手にするハードウェア製品の体験を起点に、半導体、OS、フレームワーク、アプリケーションまでを一体で設計している企業はない。同じような半導体のアーキテクチャを採用し、同じようにオンデバイスAIが今後重要になっていくと定義していても、行き着く答えは変わってくる。

その違いは、具体的な数字にも表れる。

NVIDIAが発表したばかりのPC向けプラットフォーム「RTX Spark」は、ArmベースのGrace CPUとBlackwell世代のGPUをひとつのSuperchipとして結合し、最大128GBの共有メモリを載せる。業界標準とも言えるNVIDIAのAI技術スタックが、共有メモリのアーキテクチャとともにWindowsマシンに降りてくることを歓迎する声は多い。同時にそれは、この設計思想を先導してきたアップルの設計が、いまどこにあるのかを測る物差しにもなる。

数カ月前、筆者はRTX Sparkとよく似たArmコアとBlackwellアーキテクチャを積むDGX Sparkを手元で試していた。あるAIモデルをロードしてプログラムコードを書かせると、そのスループットは毎秒14トークン前後。悪くはないが、同じ作業を、アップルのM4 Maxを搭載するMacBook Proで実行すると、およそ毎秒34トークン前後を出力した。

大きな理由はメモリ帯域にある。M4 Maxの最大メモリ帯域は546GB/s。DGX Sparkの273GB/sに対して2倍に達する。デコードの性能はモデルのウェイトを読み出す速度に左右されるため、この帯域差が、そのまま生成速度の差になった。

M4アーキテクチャには行列演算効率が低い弱点もあったが、M5ではその弱点も塞がれている。筆者がDGX Sparkと比較した範囲では、M5 Maxのデコード性能、すなわち生成スループットはおよそ2倍に達し、プリフィル性能もほぼ同等の水準まで近づいた。

共有メモリの潮流が広がるほど、設計の出発点の違いは、こうした数字になって表れてくる。アップルの場合、このアーキテクチャによる恩恵は、デスクトップやノートブック型のコンピュータだけではなく、タブレットやスマートフォンにまで連なる。

演算性能の絶対値ではなく、製品を手にした人間の体験から逆算して半導体を組み上げる価値は、どのテックジャイアントよりも大きい。AppleシリコンのAI戦略が業界を大きくリードしていることは、本稿の中で辿ってきた数字が裏づけている。