テキサス大学オースティン校で開発された新しい人工知能(AI)モデルは、人の脳活動を文字に変換することを可能にした。このモデルは、非侵襲的なスキャン方法のみを用いて、長時間にわたって誰かの思考から複雑な言語を解読するように訓練することが出来ると言う。
“セマンティックデコーダー”と呼ばれるこのシステムは、脳卒中や麻痺、その他の変性疾患を患い、物理的なコミュニケーション能力を失った患者さんに、最終的に恩恵をもたらす可能性があるとのことだ。
本研究の共同研究者である神経科学とコンピューターサイエンスの助教授であるAlexander Huth氏は、「非侵襲的な方法としては、一般的に単一単語や短い文章であるこれまでの方法と比較して、これは本当に飛躍的な進歩です」と声明で述べている。
同様のシステムは他にも開発されているが、このシステムの特徴は、参加者が身体にインプラントを装着するような手術が必要がなく、使用できる言葉のリストも限定されない点で、これまでとは異なる画期的な物となっている。
このセマンティックデコーダーは、Open AIのChatGPTやGoogleのBardチャットボットに見られるような技術を使っており、機能的磁気共鳴画像(fMRI)で脳をスキャンしながらポッドキャストを聴く個人から得られた数時間のデータで学習される。その後、参加者の同意を得て、新しい物語を聴きながら、あるいは物語を語ることを想像しながら思考をデコードし、モデルがテキストのストリームを生成することが出来るとのことだ。
実際に以下のような形で、対象者が思い浮かべた物を言語化する事が可能だという:
実際にご覧頂ければお分かりのように、セマンティックデコーダーは、逐語的に文章を合成することは出来ないが、相手の考えている事の要点を捉えることが可能となっている。実際に訓練を重ねると、約半数の確率で、相手の考えを正しく、時には正確に表現した文章を作成することができるようになるとのことだ。
この研究は、物語を聞いたり考えたりすることだけに留まらない。この動画は、音声を消して映画を見ている人の脳活動から、モデルが何を解読できたかを示している:
まだ完璧ではないが、すべてのプロセスが非侵襲的であることは患者の負担を考えても大きな進展だ。Huth氏は、「非侵襲的な方法としては、一般的に単一単語や短い文章であるこれまでのものと比べて、これは本当に飛躍的な進歩です。私たちは、複雑な考えを持つ連続した言語を長時間解読するモデルを手に入れたのです」と、リリースで述べている。
しかし、多くの人にとって、自分の思考を読み取ることができるデバイスは、不安を喚起する物だ。
このような避けられない懸念に対して、研究の共同リーダーで博士課程の学生であるJerry Tang氏は、「私たちは、悪い目的に使われるかもしれないという懸念を非常に真剣に受け止め、それを回避するために努力してきました。私たちは、人々がこの種の技術を使いたいときにだけ使い、それが彼らの役に立つことを確認したいのです」と、述べている。
実際、このシステムが機能するようになるには、何時間も訓練する必要があるという物理的な制約もある。「MRIスキャナーに横たわり、完全に静止し、話をよく聞いてからでないと、このシステムはうまく機能しません」とHuth氏は説明する。
さらに、訓練に参加した人でも、動物など無関係なものを思い浮かべることで、自分の内なる言葉を解読できないようにする安全策もある。
しかし、研究者たちがこの技術を進歩させるために努力を続ける中で、プライバシーと安全性は最重要課題となっている。「今、この技術が初期段階にある間は、人々とそのプライバシーを保護する政策を制定することによって、積極的に行動することが重要だと思います。これらのデバイスをどのような用途に使用できるかを規制することも非常に重要です」と、Tang氏は述べている。
論文
- Nature Neuroscience: Semantic reconstruction of continuous language from non-invasive brain recordings
参考文献
- University of Texas at Austin: Brain Activity Decoder Can Reveal Stories in People’s Minds
- via EurekAlert!
- ScienceNews: Neuroscientists decoded people’s thoughts using brain scans
研究の要旨
非侵襲的な記録から連続的な言語を解読する脳-コンピュータインタフェースは、多くの科学的および実用的な応用が期待される。しかし、現在のところ、非侵襲的言語デコーダは、少数の単語またはフレーズの中から刺激を識別することしかできない。本研究では、機能的磁気共鳴画像法(fMRI)を用いて記録された皮質意味表現から連続言語を再構成する非侵襲的デコーダを紹介する。このデコーダは、新しい脳記録から、知覚された音声、想像された音声、さらには無音ビデオの意味を回復する理解可能な単語シーケンスを生成し、単一のデコーダが様々なタスクに適用できることを実証する。このデコーダを大脳皮質全体でテストしたところ、複数の領域から連続した言語を個別にデコードできることがわかりました。ブレインコンピュータインターフェイスは精神的プライバシーを尊重すべきものであるため、デコードの成功に被験者の協力が必要かどうかを検証したところ、デコーダの訓練と適用の両方に被験者の協力が必要であることが判明した。この結果は、非侵襲的な言語脳コンピュータインタフェースの実現可能性を示すものである。
コメントを残す