Meta(メタ)の人工知能(AI)が世界で初めて、メタゲノム世界の構造を数億個のタンパク質のスケールで作り出すことに成功した。「タンパク質は、私たちの遺伝子によってコード化された複雑で動的な分子であり、生命の多様で基本的なプロセスの多くを担っています。」と、Meta社の研究チームは書いており、この件に関する論文もプレプリントデータベースbioRxivに発表している。
- 論文
- 参考文献
- Meta AI: ESM Metagenomic Atlas: The first view of the ‘dark matter’ of the protein universe
- ESM Metagenomic Atlas: 公式サイト
- Live Science: Meta’s new AI just predicted the shape of 600 million proteins in 2 weeks
- GitHub: facebookresearch/esm
メタゲノム解析は、地球上のあらゆる環境から採取されたサンプルや、私たち人間の体内にも存在するタンパク質を、遺伝子配列の解析によって発見するものだ。よく研究されている生物でカタログや注釈が作成されているもの以外にも、膨大な数のタンパク質が存在することは常識であり、今、これらのタンパク質が表面化しつつあるのだ。
「光を感知して視覚を可能にする目の杆体や錐体、聴覚や触覚を支える分子センサー、植物で太陽光を化学エネルギーに変換する複雑な分子機械、微生物や筋肉で運動を駆動するモーター、プラスチックを分解する酵素、病気から身を守る抗体、失敗すると病気を引き起こす分子回路は、すべてタンパク質です。メタゲノム解析は、これらのタンパク質の驚くべき幅広さと多様性を明らかにし始め、NCBI、欧州バイオインフォマティクス研究所、ジョイントゲノム研究所などの公的機関が世界中の研究者の研究を取り入れて編纂した大規模データベースで初めて明らかにされた、何十億ものタンパク質配列を発見しました」と、メタ研究チームは説明する。。
この発見は、もともと人間の言語を解読するために設計されたモデルを持つESMFoldと呼ばれるプログラムを使って行われた。この発見は、オープンソースのESM Metagenomic Atlasにまとめられ、いつか新薬の生産、未知の微生物機能の特徴づけ、遠縁の種間の進化的つながりの発見などに利用できるかもしれない。
Meta社は、6億以上のメタゲノム構造データベースと、研究者が自分の研究に関連する特定のタンパク質構造を簡単に取得できるAPIを共有している。
タンパク質の予測
タンパク質の予測を行うプログラムはESMFoldが初めてではない。Google傘下のDeepMindもAlphaFoldというタンパク質予測プログラムを持っており、今年もタンパク質の特定を目指した。しかし、Metaの研究者は、その成果はまだ査読されていないものの、ESMFoldはAlphaFlodの60倍の速度であると主張している。
さらに、この新しいAtlasは、「高解像度予測構造の最大のデータベースであり、既存のどのタンパク質構造データベースよりも3倍大きく、メタゲノムタンパク質を包括的かつ大規模にカバーした最初のものである」と科学者は述べている。
「これらの構造は、自然界の広さと多様性に対する前例のない見方を提供し、新しい科学的洞察と、医学、グリーンケミストリー、環境応用、再生可能エネルギーなどの分野で実用化されるタンパク質の発見を加速させる可能性を秘めています」と研究チームは結論づけている。
研究の要旨
人工知能は、タンパク質の構造を進化のスケールで解明する可能性を持っている。タンパク質構造予測は、つい最近、カタログに掲載された2億個のタンパク質に拡張することが可能になったばかりである。大規模な遺伝子配列解析実験によって明らかになった、指数関数的に増加する数十億のタンパク質配列の構造を特徴付けるには、折りたたみ速度の飛躍的向上が必要である。本発表では、大規模言語モデルを用いて一次配列から構造を直接推定することで、高分解能構造予測を一桁以上高速化することができることを示す。言語モデルが何百万もの配列から進化パターンを学習することを利用し、最大15Bのパラメータを持つモデルを学習させた。これは、これまでのタンパク質の言語モデルとしては最大である。言語モデルの規模が大きくなるにつれて、個々の原子の分解能でタンパク質の3次元構造を予測するための情報を学習するようになります。その結果、解像度と精度を維持したまま、最新技術の60倍もの速度で予測することが可能になりました。これをベースに、ESMメタゲノムアトラスを発表します。これは、メタゲノム・タンパク質の大規模な構造特性評価としては初めてのもので、6億1700万以上の構造が含まれています。このアトラスは、2億2500万以上の信頼性の高い予測を明らかにし、その中には実験的に決定された構造との比較で新規の構造を持つ数百万も含まれています。このアトラスは、地球上で最も理解されていないタンパク質の構造の広大な広がりと多様性について前例のない見解を示しています。
コメントを残す