自動運転システムの学習には、センサーが取得した大量のオブジェクトデータが必須であり、それをマシンラーニングやディープニューラルネットワークで解析する必要がある。このプロセスを通じ、システムが道路上の全ての物体をラベル分けして認識することになる。
ラベル分けのプロセスは、生データの収集以上に時間がかかる場合もある。この分野では、データからノイズを除去し、ラベル分け作業のみを請け負うことに特化したMighty AIなどの企業もある。Aptivが今回、提供を開始するneScenesのデータセットは既にラベル分けが施されている。
nuScenesに収録されたデータは、Aptivが2年半に渡りシンガポールやボストンでテスト走行を重ねて取得したものだ。既存のデータセットの多くが画像のみだったのに対し、nuScenesには140万点の画像データと、39万件のLiDARや加速度計、GPSから取得したデータが含まれている。
さらにデータ内にはマニュアル処理で加工された、140万個以上のバウンディングボックス(四角形)が含まれており、1000シーンに仕分けされている。これらのデータは、右側通行と左側通行の双方の道路環境で取得したもので、自動運転車両が多くの課題に直面する都市部のデータを大量に含んでいる。
自動運転領域の企業はこれまで、競合に対する優位性を保つため、データを積極的に開示してこなかった。また、データはセンサーのスペックや取得したロケーションに依存するため、開示してもさほど意味がないという理由もあった。
今回、nuScenesで開示されたデータも、Aptivのシステムを搭載した車両のみで再現可能なものであり、修正を加えない限り他社の自動運転システムのトレーニングには利用できないと見られる。
しかし、今回公開されたデータは、自動運転システムの研究を行う上では非常に有用だ。Aptivの狙いは、研究者らにnuScenesのライブラリを活用させることで、Aptivのプラットフォームへの参加を促すことにある。
nuScenesのデータは現在、ウェブサイト上で公開されている。