グーグルが公式ブログで明かした「Pixel 3」開発の舞台裏

(Photo by Tomohiro Ohsumi/Getty Images)

グーグルの新型スマートフォン「Pixel 3」は、ポートレートモードが「Pixel 2」よりもさらにパワーアップしている。

Pixel 3の最大の特徴は、たった1つのレンズで高品質な画像の撮影を実現した点だ。人間が両目を使って3Dビジョンを実現するように、ポートレートモードは通常2つのレンズを使って深度を検知する。これに対し、Pixel 3はオートフォーカスシステムにAI(人工知能)を組み合わせることで、ポートレートモードに対応している。

Pixel 3のカメラセンサーには、画素を左右2つに分割した「Phase-Detection AutoFocus (PDAF)画素」が採用されている。これにより、カメラモジュールが1つしかないにも関わらず、画像を左右のペアに分割している。

左右の画像の違いは人間の目には判別できないほど小さく、これだけで3D画像を生成することはできない。しかし、Pixel 3はアルゴリズムによって個々の画素の深度を推計し、視差情報を取得している。

グーグルは、AIを使ってどの画素が人間を構成し、どの画素が背景を構成するか判別している。これに深度情報を組み合わせることで、画素ごとの「深度マップ」を生成しているのだ。

この手法は、本来ぼかすべき箇所をシャープに表示してしまうなど大きなエラーが起きやすいが、グーグルは機械学習を強化することでPixel 3でのエラーを大幅に削減することに成功した。

PDAF画素から得た情報以外にも、フォーカスの違いや被写体の相対的なサイズ、カメラ位置の変化に応じた被写体の動き方などから深度を検知している。グーグルは、これらの要素を用いたアルゴリズムを人間が設計するのではなく、畳み込みニューラルネットワークをベースにした機械学習を使うことで精度の高い深度マップを実現した。

「フランケンフォン」という特殊ケース

ニューラルネットワークをトレーニングする上で、開発チームは大量の画像を必要とした。そこで、彼らは5台のPixel 3を収納する特殊ケースで「フランケンフォン」を作り上げた。フランケンフォンは外見こそ奇妙だが、各端末が微妙に異なる位置を維持したまま同時撮影ができ、ニューラルネットワークのトレーニングに用いる深度情報を大量に取得できたという。

グーグルは、新しい技術で撮影した画像をグーグルフォト上のアルバム「Stereo vs Learned Comparison」で公開しているが、中には目を見張るような改善が見られるものもある。

Pixel 3のポートレートモードは、シングルカメラで撮影したとは思えないほど素晴らしい。しかし、マルチカメラの方が優れていることは事実であり、グーグルは今後もシングルカメラに固執するべきではないだろう。

マルチカメラなら望遠レンズや広角レンズに対応できるが、AIでこれらの機能を再現することはできない。また、センサーが多い方が1回の撮影でより多くの光を集めることができ、鮮明で詳細な画像を撮影することができる。Pixel 3に関する詳細レポートは、「Google AI blog」に記載されている。

編集=上田裕資

タグ:

ForbesBrandVoice

人気記事