オーストラリアの研究者らが、世界で初めて、実験室で培養した人間の脳細胞をトレーニングして、ビデオゲームの『ポン(Pong)』をプレイさせることに成功した事が、『Neuron』誌に報告されている。培養された脳細胞が目標指向のタスクを実行する能力を示したのはこれが初めてであり、この発見は、脳の新しい理解への扉を開く物だという。
AIの歴史の中で最も重要な出来事の1つは、システムのルールを学習できるアルゴリズムの開発だ。ゲームをプレイするアルゴリズムなどの初期のバージョンには、ゲームの基本を与える必要があった。しかし、新しいバージョンではそれは必要ないのだ。スコアなどの報酬を追跡するシステムが必要なだけで、ゲームのルールの正式な説明を必要とせずに、どのアクションがそれを最大化するかを判断できるようになっている。
長年にわたり、AI研究はコンピューターを使って神経回路網をシミュレートすることに重点を置いてきた。このアプローチは、ビデオゲームをするなどの特定の用途には有効だが、真の人工知能を生み出すには至っていない。
科学誌『Neuron』に掲載された論文は、電極で満たされた皿で成長した実際のニューロンを使用することで、これをさらに一歩進めている。これにより、どのニューロンが実際にやりがいを感じるかを知る方法がなかったため、さらに複雑なものとなっている。 システムが機能しているように見えるという事実は、ニューロンが外界への応答をどのように自己組織化できるかについて何かを教えてくれるかもしれない。
DishBrain(皿の上の脳)
オーストラリアのメルボルンを拠点とする研究者たちは、このシステムを「DishBrain(皿の上の脳)」と呼んでいる。このシステムは、底に電極を取り付けた皿をベースにしている。電極は、その上にある神経細胞の活動を感知するか、電極を刺激するかの2つの役割を果たす。電極はニューロンの大きさに比べて大きいので、感知と刺激(情報の読み書きに似ていると考えられる)の両方が、単一のニューロンではなく、ニューロンの小さな集団に関与している。
さらに、標準的な培養皿であるため、さまざまな種類の細胞を培養することができる。研究チームは、電気信号に反応しない細胞を用いた対照実験も行った。この実験では、マウスの胚から切り出した神経細胞と、ヒトの幹細胞から神経細胞を誘導して作った神経細胞の2種類を用いた。いずれの場合も、他の実験で見られたように、神経細胞同士が自発的に結合し、自発的な活動をするネットワークが形成された。
ハードウェアは完全に自由自在だが、研究者たちは、コンピュータのコントローラーを使った閉ループシステムの一部としてこれを構成した。この構成では、皿のいくつかの領域にある電極が、DishBrainから入力を受けるように定義されており、それらはシステムの応答を制御することから、まとめて運動領域と呼ばれている。
さらに8つの領域は、電極による刺激という形で入力を受けるように指定されており、脳の感覚野のような働きをする。コンピュータは、この電極を使ってシステムにフィードバックを与えることもできる。
これらを総合すると、ニューラルネットワークがコンピュータ環境で起こっていることを学習するために必要なすべてのものが提供される。運動電極は、ニューロンが環境の振る舞いを変えることを可能にし、感覚電極は、環境の状態に関する入力と、その行動が成功したかどうかを示す信号の両方を受け取る。このシステムは汎用性が高いので、実験のコンピュータ部分にはあらゆる種類の環境を設定することができる。つまり、単純な入力で環境が変化するものなら、ほとんど何でも設定できるのだ。
そして研究者たちは『Pong』を選んだ。
Pongと理論脳科学の出会い
Pongは、ディスプレイ上で行う単純な卓球ゲームだが、これを選んだことは、いろいろな意味で優れた選択だ。ゲームの環境には、パドルの位置とボールの位置という2つの変数しかない。パドルは一本の線に沿ってしか動かせないので、運動部分は上か下かの2つの入力だけで済む。ボールがパドルを通り過ぎるとゲームが止まってしまうというエンドステートを回避することができる。これは、シンプルなニューラルネットワークをテストするのに最適なセットアップだ。
しかし、ここには注目すべき問題がある。ボールがまだプレー中である状態を、ニューロンが報酬とみなす理由はないのだ。つまり、ニューラルネットワークが成功したときに、コンピューターがどのような信号を出すべきかを人間が知る術がない。そして、そのような信号がなければ、ニューラルネットワークは何も学習することができないのだ。
そこで研究チームは、理論的な神経生物学に着目した。感覚ネットワークがどのように世界の解釈を学ぶかについて、ある提案では、ネットワークがこれから起こると思っていることと、世界の実際の状態との間のミスマッチを最小限に抑えようとする、とされている。この考え方では、学習ネットワークは当然、予測された状態と実際の状態の不一致を最小化しようとする。
Pongに例えると、ネットワークの感覚的な部分は、位置の入力を受け、行動(パドルを上下に動かす)を決定し、次の状態がどうなるかの予測を生成する。世界を正しく解釈していれば、その状態は予測に近いものとなり、したがって感覚入力はそれ自身の報酬となる。もし間違っていれば、大きなミスマッチが生じ、ネットワークはその接続を修正して再挑戦する。
この報酬をより明確にするために、もしネットワークがボールをエンドラインに通過させてゲームに負けた場合、研究者たちはネットワークに、おそらく予測とは無関係なランダムな位置情報を送り込んだ。このとき、ネットワークは予測とは無関係のランダムな位置情報を得ることができ、予測との間に大きな差異が生じるため、ゲームが再開される前にシステムを再編成することができる。
「パドルを制御して感覚を介してボールを返すことにより、細胞培養に感覚を示すタスクを実行するように教えるこの新しい能力は、技術、健康、社会に広範囲に及ぶ結果をもたらす新しい発見の可能性を開きます」と、この研究の共著者であるモナシュ大学のAdeel Razi博士は述べている。
しかし、これはあくまでも、ニューロンが自己組織化して学習システムを構築する方法についての提案に過ぎないことを忘れてはならない。無傷の脳の一部がこのような挙動を示すかどうかはわからないし、ましてや、皿の中に無造作に放り込まれた神経細胞の束が自発的に学習システムを形成するかどうかはわからないのである。
驚くべきことに、このシステムは、少なくともいくつかの「機能した」定義においては、機能したように見える。マウスやヒトの神経細胞からなるシステムは、時間とともにピンポンラリーの平均距離が伸びており、ゲームのルールを学習している可能性を示している。非神経細胞や報酬系を持たないシステムでは、このような向上は見られなかった。
とはいえ、多くの注意点がある。最もよく動作するシステムでも、それほどうまくPongをプレイすることはできなかった。パドルをランダムに動かしていると思われる最も性能の良い制御システムは、常に平均的な学習済みニューラルネットワークを上回り、学習済みシステムによる最悪のパフォーマンスは、平均的な制御ニューラルネットワークよりも悪かったのだ。つまり、性能の向上は統計的に有意であったものの、訓練された機能的なシステムがポンをプレイするのを見ただけでは、必ずしも識別できないのだ。
もうひとつは、研究者たちが行ったテストが、性能の測定方法、トレーニングの量、複数のコントロールなど、個別で多岐にわたったことです。そのため、偶然の産物として良い結果が出ることもあるはずだ。そのため、ここで注目しなければならないのは、良い結果が一貫して同じ方向を向いているかどうかとなる。
その一貫性があるように見えるのだ。この効果は、ヒトとマウスの両方のニューロンで認められ、いくつかの成功の指標はすべて並行して動いた。ラリーの平均長さと、パドルから少なくとも3回バウンドしたラリーの合計数は増加し、パドルがボールに一度も触れなかった「エース」の数は減少したのである。また、ボールがエンドラインを通過してゲームが終了したときに何もフィードバックを与えない場合、学習システムと制御システムの中間的なパフォーマンスが得られました。これらの結果を総合すると、個々のテストではかなり弱い結果であったとしても、そこには実際に効果があることが示唆される。
幸いなことに、これは比較的簡単に再現できるものだ。Pongと同じくらい単純なゲームはたくさんあるだろうし、経験による同様の改善を探すのに使えるかもしれない。
しかし、これが成立するとすれば、実際の神経細胞から形成される神経ネットワークが、自発的に学習能力を獲得することを示す証拠となる。そして、実際の脳が持つ学習能力の一部を説明できるかも知れない。そこでは、より小さなニューロンのグループが、ここで使われている感覚器や運動器のような機能単位に組織化されているのだ。
「この研究の美しく先駆的な側面は、神経細胞に感覚(フィードバック)を与え、その世界に対して行動する能力を与えることにあります」と、この研究の共著者であるKarl Friston教授は述べている。「驚くべきことに、この文化圏では、自分の世界に働きかけることによって、その世界をより予測しやすくする方法を学んだのです。このような自己組織化を教えることはできないので、これは驚くべきことです。なぜなら、ペットと違って、この小さな脳は報酬と罰の感覚を持っていないからです」
この実験は、ちょっと不気味で倫理的に問題があるように聞こえるかもしれないが、他の科学者達は、我々が虐待を心配する必要のある種類の知能ではない、と説明している。
「心配しないでください。これらの神経細胞の皿は、刺激に基づいて反応を変えることができますが、それらは、皿の中のSFスタイルの知能ではなく、単純な(興味深く、科学的に重要ではありますが)回路の反応です」と、英国認知症研究所のプログラムリーダー、Tara Spires-Jones教授は説明する。
今後、DishBrainの研究では、薬やアルコールがPongをプレイする能力にどのような影響を与えるかを調べ、人間の脳の代用として効果的に扱えるかどうかを検証する予定だ。研究者らは、DishBrain(あるいはその将来のバージョン)が、アルツハイマー病などの病気の治療法のテストに使われることに期待を寄せている。
論文
参考文献
- Scimex: Human brain cells in a dish learn to play Pong
- New Atlas: Brain cells in a lab dish “exhibit sentience” by learning to play Pong
- The Age: Scientists teach brain cells in a dish to play Pong, opening potential path to powerful AI
研究の要旨
ニューロンをデジタルシステムに組み込むことで、シリコンだけでは実現不可能な性能を実現できる可能性がある。ここでは、構造化された環境でニューロン固有の適応的な計算を利用するシステムであるDishBrainを開発した。ヒトやげっ歯類由来のin vitro神経回路網を、高密度多電極アレイを介してin silicoコンピューティングと統合する。電気生理学的な刺激と記録により、培養細胞はアーケードゲーム「Pong」を模倣したゲーム世界に組み込まれる。自由エネルギー原理を用いた能動的推論の理論を応用し、ゲームプレイを開始してから5分以内に、対照条件では観察されなかった明らかな学習を発見した。さらに実験では、クローズドループの構造化されたフィードバックが、時間をかけて学習を引き出すのに重要であることを実証した。培養体は、自分の行動の結果に関する疎な感覚情報に応答して、目標指向的に活動を自己組織化する能力を示し、これを合成生物学的知性と呼んでいる。今後の応用により、知能の細胞内相関に関するさらなる知見が得られるかもしれない。
コメントを残す