SalesforceのAIが全く新しいオリジナルのタンパク質をゼロから生成

科学者たちは、ゼロから人工酵素を生成することができるAIシステムを開発した。実験室でのテストでは、人工的に生成したアミノ酸配列が既知の天然タンパク質から大きく乖離していても、一部の酵素は自然界に存在するものと同様に機能したとのことだ。

この実験は、言語テキストの読み書きのために開発された自然言語処理が、少なくとも生物学の基本原理の一部を学習できることを実証している。Salesforce Researchが開発した「ProGen」と呼ばれるAIプログラムは、ネクストトークン予測を使ってアミノ酸配列を人工タンパク質に組み立てるものだ。

科学者たちは、この新しい技術は、ノーベル賞を受賞したタンパク質設計技術である有向進化よりも強力になる可能性があり、治療薬からプラスチックの分解までほとんどあらゆる用途に使用できる新しいタンパク質の開発を加速させることによって、50年の歴史を持つタンパク質工学の分野に活気を与えるだろう、と述べている。

「人工的な設計は、通常のプロセスで作られたものよりも優れています。高温や酸でよく働く酵素のような、特定のタイプの酵素を作ることができるようになったのです。」と、このプロジェクトに携わる科学者、 James Fraser氏は語っている。

ProGenが新たなタンパク質をデザインする流れは以下の通りだ。

ユーザー入力制御タグ：ユーザーは、リゾームなどのタンパク質の種類を表すコントロールタグをProGen AIモデルに入力する。
ProGen AIモデル：ProGen AIモデルは、このタグを使ってアミノ酸配列を人工タンパク質に組み立てる。
タンパク質の出力：この新しい人工タンパク質は、治療薬からプラスチックの分解に至るまで、ほとんどあらゆるものに利用することが可能だ。

ProGenを作るために、Salesforceの科学者たちは、科学者達は、2億8千万種類のあらゆるタンパク質のアミノ酸配列を機械学習モデルに送り込んで、2週間ほど情報を消化させただけだという。そして、5つのリゾチームファミリーの56,000の配列と、これらのタンパク質に関する文脈的な情報を入力し、モデルを微調整した。

このモデルはすぐに100万個の配列を生成し、研究チームは、それらが天然のタンパク質の配列にどれだけ似ているか、また、AIタンパク質の基礎となるアミノ酸の「文法」と「意味」がどれだけ自然であるかを基準に、テストする100個を選んだ。

研究チームは、Tierra Biosciences社が試験管内でスクリーニングしたこの最初の100個のタンパク質のうち、5個の人工タンパク質を作って細胞内で試し、その活性を鶏卵の白身に含まれる酵素、通称「鶏卵白身リゾチーム（HEWL）」と比較した。同様のリゾチームは、人間の涙や唾液、牛乳にも含まれており、細菌や菌類から身を守っている。

AIは、あっという間に100万ものタンパク質配列を作り出し、その中から100個がテスト用に選ばれた。その中から5つを実際のタンパク質にし、細胞でテストした。これは、生成された結果のわずか0.0005%に過ぎない。次のフロンティアは、すべての可能性を検証するAIの開発ということになりそうだ。人工酵素のうち2つは、卵白に含まれる天然酵素と同じように細菌を分解する能力があった。それでも、両者の類似度はわずか18％だった。

人工酵素のうち2つは、HEWLに匹敵する活性でバクテリアの細胞壁を分解することができたが、その配列は互いに約18％しか同じではなかった。この2つの配列は、既知のタンパク質とは約90%と70%の同一性を持っていた。

天然タンパク質は1カ所でも変異があると働かなくなるが、研究チームは別のスクリーニングを行ったところ、AIで生成した酵素は、既知の天然タンパク質と31.4%しか同じ配列がなくても活性を示すことを発見した。

さらに、AIは、生の配列データを学習するだけで、酵素がどのような形状になるべきかを学習することもできた。X線結晶構造解析で測定したところ、人工タンパク質の原子構造は本来あるべき姿を保っていたが、その配列はこれまで見たことのないものだった。

ProGenは、もともとChatGPTと同じようにテキストを書くために作られたLLMを使って2020年に作られた。AIシステムは、たくさんのデータを見て、タンパク質のルールや構造を学習していった。タンパク質の場合、設計の選択肢はほぼ無限にあった。リゾチームは、最大で約300個のアミノ酸を持つ、タンパク質としては小さなものだ。しかし、アミノ酸が20個もあれば、その組み合わせは20³⁰⁰通りにもなる。これは、地球上の砂粒の数、宇宙の原子の数を掛け合わせた数よりも多いのだ。

Profluent Bio社の創設者であり、Salesforce Research社の元研究員で、この論文の筆頭著者であるAli Madani博士は、「機能性タンパク質をゼロからすぐに生成できることは、我々がタンパク質設計の新しい時代に突入していることを示しています。これは、タンパク質エンジニアが利用できる汎用性の高い新しいツールであり、治療への応用が楽しみです。」と述べている。

ちなみに、ProGenのコードはGithubで公開されており、興味がある場合はそちらから試すことが可能だ。

論文

Nature Biotechnology: Large language models generate functional protein sequences across diverse families

参考文献

Salesforce: How Salesforce’s AI-Designed Proteins Could Help Uncover Potential Medical Treatments
via NewScientist: AI has designed bacteria-killing proteins from scratch – and they work

研究の要旨

ディープラーニング言語モデルは、タンパク質の設計や工学など、様々なバイオテクノロジー分野での応用が期待されている。ここでは、多様なトピックに関する文法的・意味的に正しい自然言語の文章を生成するのと同様に、大規模なタンパク質ファミリー全体で予測可能な機能を持つタンパク質配列を生成できる言語モデル、ProGenについて説明する。このモデルは、19,000以上のファミリーの2億8千万個のタンパク質配列で学習され、タンパク質の特性を指定する制御タグで補強されている。ProGenは、キュレーションされた配列とタグに対してさらに微調整を行い、十分な相同サンプルを持つファミリーからのタンパク質の制御可能な生成性能を向上させることができる。5つの異なるリゾチームファミリーに微調整された人工タンパク質は、天然タンパク質との配列同一性が31.4%と低く、天然リゾチームと同様の触媒効率を示した。ProGenは、コリスメート・ムターゼとリンゴ酸デヒドロゲナーゼで示したように、多様なタンパク質ファミリーに容易に適応することができる。