タンパク質がどのように相互作用するかを理解することは、バイオテクノロジーのあらゆる事象を理解する上で鍵となる。AlphaFoldとその後継モデルであるAlphaFold2に加え、過去数年間でAlphaFoldが生成した何億ものタンパク質構造は、世界中のバイオテクノロジー研究者にとって重要なツールキットとなっている。
しかし、AlphaFoldは業界を前進させることに貢献したものの、できることには限界がある。合成生物学における究極の目標は、AIがその形状に基づいてタンパク質を生成することだ。ロンドンに本拠を置くBasecamp Research(ベースキャンプ・リサーチ)は3月12日、AlphaFold2のオープンソースアルゴリズムの上に構築した新たなAIモデルを用いることで、この目標に一歩近づいたと発表した。
同社のモデルの「BaseFold」は、より広範なデータセットを用いて学習しており、AlphaFold2よりも高精度でタンパク質の構造を予測することが可能だという。また、同社はエヌビディアと協力し、BaseFoldの最適化を図るために同社の創薬向け生成 AI プラットフォーム「BioNeMo」で、このモデルを使えるようにすると発表した。
タンパク質が低分子化合物と相互作用した際の構造変化は創薬プロセスにおける重要なデータポイントだが、Basecamp Researchの共同創業者兼CEOであるGlen Gowers(グレン・ガウアーズ)によると、同社のソフトウェアはこれを従来の3倍の精度で予測できるという。同社は、査読前の研究論文をプレプリントサーバーのbioRxivに発表した。ピッチブックによると、同社はこれまでに累計2500万ドルを調達しており、評価額は7100万ドル(約107億円)に達している。
このことは、創業4年目のBasecamp Researchにとっては大きなマイルストーンだと言える。現在29歳のガウアーズは、タンパク質や新しい生物をデザインして顧客のニーズに応えるという彼の究極の目標に一歩近づいたと考えている。
「我々は、タンパク質の構造だけを予測する会社になるつもりはない。あらゆるものの生成や予測にこのソフトウェアを適用していきたい。タンパク質の機能適応や新しいタンパク質の生成、さらには新しいゲノムの生成などを行っていきたい」と彼は話す。
ガウアーズは、2019年に研究者仲間たちとアイスランドで1カ月間電気のない生活をしたときにBasecamp Researchのアイデアを思いついたという。彼らは、氷と温泉が近くにある場所に滞在し、極端な暑さと寒さの両方に耐えられるように進化した特殊な微生物のゲノム配列の研究に明け暮れた。彼らが1カ月で集めたデータの大半は「未知のタンパク質と配列で起源も不明な物質」であったという。
このことから、彼はAlphaFoldの学習に使われた一般公開されているゲノムデータセットが、大西洋の水の量ほどある生物種の中で、水5滴分程度の量しか網羅できていないことがわかったという。