大規模なゲノムデータを学習
生命を構成するタンパク質の機能を予測する上では、膨大な量のデータが必要になるが、あまりにも多くの要素が影響を及ぼすために計算が複雑になり、算出するのは不可能に近い。しかし、数十億もの異なる構造で訓練された機械学習モデルを用いれば、より高精度な予測が可能になる。これは、この数年で登場したAIチャットボットに例えることができる。ボットをX(旧ツイッター)のような言語の小さなサブセットで訓練すると、2016年にマイクロソフトのチャットボットが差別的発言を連発したような事態が起きてしまう。それに比べて、ChatGPTやその競合サービスは、インターネット上の大規模で多様なデータを使って訓練されており、質問に対してより良い回答をし、差別的な発言をする可能性は低い。同様に、より大規模で多様なゲノムデータを収集することで、タンパク質がどのように機能するかより高精度に予測することが可能になる。
こうした理由から、Basecamp Research はモデルの学習に用いるタンパク質データセットの多様化に取り組んできた。同社は2020年の創業以来、世界中の研究者と協力して数千万もの微生物や動植物から取得した高品質なゲノム情報を解析してきた。研究者には、Basecamp Researchがデータから得た収益の中からロイヤリティが支払われる。
研究者たちは、DNAの配列を決定すると同時に、タンパク質がなぜそのように機能するのかを知るために必要な生物の生息環境に関するコンテキストデータも収集してAIに提供する。「我々は、データエントリーごとに数百もの追加情報を収集している」とBasecamp ResearchのCTOで現在31歳のフィリップ・ロレンツは話す。コンテキストデータには、生物を採取した土地の温度やpH、生物を発見した水の塩分濃度、光の量などが含まれる。サンプルが発見される場所は、ハンガリーの洞窟から深海の海洋噴出孔まで多岐に渡るという。「我々は、生物を採取するために火山島から南極まで、世界中のあらゆる場所に行く」とロレンツは述べた。
ガウアーズによると同社は、予測モデリングを使って顧客の問題を解決することですでに収益を上げているというが、彼は詳しい数字は明らかにしなかった。例えば、Basecamp Researchは英国企業のColorfixと共同で、過酷な化学薬品を使わずに布地を染色できる新しいタンパク質を設計している。また、コネチカット州に本拠を置くスタートアップ「Protein Evolution」とは、プラスチックを分解してリサイクルできる新たなタンパク質の発見に取り組んでいる。ガウアーズは今後、計算能力を活かして製薬会社と共同で新薬を開発したいと考えている。
しかし、彼はいつまでもこのような状況でいられるわけではないことを認めている。資本力のあるライバルに対抗するため、Basecamp Researchは近い将来、さらに資金を調達する予定だ。「新しいモデルをトレーニングし、新しいアーキテクチャーを構築するには大きなコストがかかる。データが大きい場合には特にそうだ」と彼は語った。
(forbes.com 原文)