マサチューセッツ工科大学(MIT)の研究者らは、生物学研究のための自動機械学習(AutoML)システム「BioAutoMATED」を開発した事を発表した。このシステムは、与えられたデータセットに対して適切なモデルを選択・構築することができ、データの前処理という骨の折れる作業も引き受けてくれる。
「私たちのデータセットに適したモデルを見つけ出すには、何週間もかかるでしょう。これは、機械学習や生物学を利用しようとする多くの人々にとって、本当に法外なステップです」と、研究チームの一員である生物工学博士課程5年生で、この論文の第一共著者であるJacqueline Valeri氏は言う。
「生物学の基本言語は配列に基づいています。DNA、RNA、タンパク質、糖鎖などの生物学的配列は、アルファベットのように本質的に標準化されているという、驚くべき情報特性を持っています。多くのAutoMLツールはテキスト用に開発されているので、それを(生物学的)配列に拡張するのは理にかなっています」と、MIT機械工学科で博士号を取得したLuis Soenksen氏は説明する。
従来のAutoMLツールは、限られた種類のモデルしか探索・構築できないという欠点があった。
「しかし、プロジェクトの最初から、どのモデルがデータセットに最適かを知ることはできません。1つの包括的なツールの下に複数のツールを組み込むことで、個々のAutoMLツールが単独で達成できるよりも、はるかに広い探索空間を実現できるのです」と、Soenksen氏は付け加える。
一方、BioAutoMATEDは、選択したモデルを適切に学習させるために必要なデータ量を決定することさえできる。
「私たちのツールは、より複雑なニューラルネットワークだけでなく、より小さく、よりスパースな生物学的データセットに適したモデルを探索します。これは、機械学習の問題に適しているかどうかわからない新しいデータを持つ研究グループに特に適しています」と、Valeri氏は説明する。
「生物学と機械学習の交差点で斬新な実験を成功させるには、多額の費用がかかります。現在、生物学中心の研究所は、自分たちのアイデアがうまくいくかどうかを確認する前に、大規模なデジタルインフラとAI-ML訓練を受けた人材に投資する必要があります。私たちは、生物学の専門家にとって、このような障壁を下げたいと考えています」。
BioAutoMATEDは、複数のツールを1つの傘の下に統合することで、モデル探索におけるより広い探索空間を可能にしている。このシステムは、バイナリ分類、マルチクラス分類、回帰モデルの3種類の教師あり機械学習モデルを提供する。この柔軟性により、研究者は様々なデータタイプを扱い、選択したモデルを効果的にトレーニングするために必要なデータを決定することができる。
研究者たちは、BioAutoMATEDが生物学と機械学習の交差点で実験を行う際の経済的障壁を大幅に軽減できることを強調している。通常、生物学中心の研究室では、アイデアの実現可能性を判断する前に、大規模なデジタルインフラに投資し、AI-MLの訓練を受けた専門家を雇わなければならない。しかし、BioAutoMATEDを使えば、研究者は初期実験を行い、さらなるモデル開発のために機械学習の専門家を参加させることの潜在的な利点を評価することができる。
BioAutoMATEDのオープンソースコードは一般に公開されており、研究者は初期実験を行い、さらなる実験のために機械学習の専門家を雇って別のモデルを構築する価値があるかどうかを評価することができる。
「私たちが望むのは、人々が私たちのコードを利用し、改良し、より大きなコミュニティと協力して、これをすべての人のためのツールにすることです。私たちは、生物学研究コミュニティを盛り上げ、AutoML技術に関連する認知度を高めたいと考えています。それは、厳密な生物学的実践と、ペースの速いAI-ML実践を、現在達成されているよりもうまく融合させることができる、真剣に有用な道筋としてです」と、Soenksen氏は述べている。
論文
- Cell Systems: BioAutoMATED: An end-to-end automated machine learning tool for explanation and design of biological sequences
参考文献
- MIT: MIT scientists build a system that can generate AI models for biology research
- via Interesting Engineering: MIT scientists develop super speedy AI system for biology research
研究の要旨
機械学習(ML)モデルの基礎となる設計の選択は、MLを研究に取り入れようとする多くの生物学者にとって重要な参入障壁となる。自動機械学習(AutoML)アルゴリズムは、生命科学にMLを適用する際に生じる多くの課題を解決することができる。しかし、これらのアルゴリズムは、一般的に生物学的配列(ヌクレオチド、アミノ酸、糖鎖配列など)を明示的に扱わず、他のAutoMLアルゴリズムと容易に比較できないため、システム生物学や合成生物学の研究で使用されることはほとんどない。ここでは、複数のAutoML手法を統一されたフレームワークに統合した、生物学的配列解析のためのAutoMLプラットフォームであるBioAutoMATEDを紹介します。ユーザーは、生物学的配列の解析、解釈、設計のための関連技術を自動的に得ることができる。BioAutoMATEDは、遺伝子制御、ペプチド-薬物相互作用、糖鎖アノテーションを予測し、顕著な配列特性を明らかにしながら、最適化された合成生物学的コンポーネントを設計します。配列モデリングを自動化することにより、BioAutoMATEDはライフサイエンティストがMLをより容易に仕事に取り入れることを可能にする。
コメントを残す