Googleの親会社Alphabe傘下のAI研究部門「DeepMind」は、タンパク質構造解析を「AlphaFold」というAIで解析し、人体にある既知の全2万個のタンパク質を含む、数十万個のタンパク質3次元構造を集めたデータベースをオープンソースで公開しているが、今回、このAlphaFoldタンパク質構造データベースに、地球上で現在知られているほぼすべてのタンパク質を含む、2億個のデータが追加され、公開された。
タンパク質は、生きている細胞を形作る土台となる物質であり、生命維持に必要な無数の生物学的プロセスを実行している。タンパク質はアミノ酸の鎖で構成され、複雑な3次元形状に折り畳まれており、これがタンパク質の機能を決定している。タンパク質の構造を解明することは、タンパク質の機能、働き、異常の発生を理解するために重要であり、新薬や治療法、農作物の改良、動物の保護など、あらゆる研究のカギとなるのだ。これは “タンパク質の折り畳み問題 “として知られている。
しかし、タンパク質を構成するアミノ酸から正確な構造を計算することは、依然として困難であった。この問題を解決するために、低温電子顕微鏡法やX線結晶構造解析といった手法が開発されたが、これらの手法には多くの時間と費用が必要だった。そのため、この数十年、進歩は比較的遅々として進まなかった。
だが、Alphabetが自社の強力なAI「DeepMind」をこの問題の解決に利用し始めてからは状況が劇的に変わった。当初10万個の既知のタンパク質構造について学習させたが、それによってこのシステムは他の何百万個ものタンパク質の構造を予測する能力を獲得し、それぞれの構造を確認するのにこれまで何カ月も何年もかかっていた作業を、わずか数分または数秒でこなせるようになったのだ。精度も従来の物と同程度であるにも関わらず、圧倒的低コスト、短時間で解析が可能になったこのことはまさに革命だった。
2021年7月、最初のAlphaFoldタンパク質構造データベースが、科学者の研究用に一般公開された。当初は35万以上のタンパク質構造が含まれており、ヒトのタンパク質の約98.5パーセントと、ミバエ、マウス、酵母、大腸菌で見つかったタンパク質が含まれていた。そして更にその後には、動物、植物、バクテリア、菌類など1万種の生物に由来する約100万個のタンパク質構造へと拡張された。以来、世界中の50万人以上の科学者がこのデータベースにアクセスし、日夜研究に役立てている。
今回、DeepMindはこのデータベースの大規模なアップデートを発表し、100万種の生物から得られた約2億1,400万個の構造を含むようになった。これは、現在科学で知られているほぼすべてのタンパク質を網羅しており、病気治療、ワクチン、持続可能性、抗生物質耐性、さらにはプラスチック汚染に関する研究に大きな恩恵をもたらす。
AlphaFoldは、「核膜孔複合体の構造を解明するなど、すでに大きな発見を加速し可能にしてきました。そして今回、タンパク質のほぼ全容を明らかにする構造が新たに加わったことで、日々、より多くの生物学的ミステリーが解き明かされていくことでしょう」と述べている。
25テラバイト以上のデータで構成されるタンパク質構造データベース全体は、Google Cloud Public Datasetsからダウンロードすることが可能だ。
コメントを残す