あなたの好奇心を刺激する、テックと科学の総合ニュースサイト

大阪大学の研究者ら、頭で思い描いたイメージをStable Diffusionで描き出すことに成功

自分が心の中で思い描いた物をコンピュータが絵にしてくれる」、そんな今までSFの中にしか登場しなかった魔法のような事が実現した。研究者らは、脳の活動をスキャンし、被験者がイメージした内容に忠実な画像を生成することに成功したのだ。

近年、脳活動の計測や深層神経ネットワークモデルの設計が進歩し、研究者は生物学的な脳内の表現と人工的なネットワーク内の表現を直接比較できるようになった。

このような取り組みには、脳活動から視覚体験を再構成することや、生物および人工システムの計算過程を調べることが含まれる。しかし、脳活動から視覚イメージを再構築することは、基礎となる表現の未知の性質と脳データのサンプルサイズが小さいために困難だ。

この課題を解決するために、研究者は、生成的敵対ネットワークや自己教師付き学習などの深層学習モデルやアルゴリズムに着目している。拡散モデル(DM)は、いくつかの画像関連タスクにおいて最先端の性能を達成することができるため、注目されている深層生成モデルだ。また、潜在拡散モデル(LDM)は、その自動符号化コンポーネントによって生成された潜在空間を利用することで、計算コストをさらに削減している。

大阪大学脳情報通信融合研究センター(CiNet)情報通信研究機構(NICT)らによる共同研究において、研究者らは画像生成モデル「Stable Diffusion」を使用することで、脳の活動から高解像度かつ高精度な画像を再構築できることを発見した。この研究が従来と異なるのは、画像を生成するのにAIモデルを訓練したり微調整する必要がなかったとのことだ。

研究者は、まずfMRI信号から画像データのモデルである潜在表現を予測した。そして、そのモデルを加工し、拡散プロセスによってノイズを付加した。最後に、高次視覚野のfMRI信号からテキスト表現を解読し、それを入力として最終的に構築された画像を生成したとのことだ。

FireShot Capture 043 Stable Diffusion with Brain Activity sites.google.com
(上段)被験者に提示された画像 (下段)fMRI信号から構築された画像 (Credit: Yu Takagi et al.)

このアーキテクチャを大規模なデータセットで学習させたところ、テキストから画像への高い生成パフォーマンスを達成した。さらに、この研究では、LDMが、複雑な深層学習モデルのトレーニングや微調整を必要とせずに、高いセマンティック忠実度で高解像度の画像を再構築できることが示された。

research 1 0305
(左画像)方法:この研究では、脳活動から視覚画像を再構成するために、LDM(Latent Diffusion Model)を使用した。画像エンコーダーとデコーダー、そしてCLIPと呼ばれるテキストエンコーダーが使用された。この研究では、デコーディング解析を用いて、視覚野のさまざまな部分のfMRI信号から画像と関連するテキストの潜在的な表現をデコードし、これらの表現を使って画像を再構成した。また、エンコーディングモデルを用いて、LDMの異なる構成要素からfMRI信号を予測した。(右画像)提示された1人の被験者の再構成画像(赤枠の部分)

拡散モデルの理解を深める

この研究は、拡散モデルの内部プロセスを覗き見るものであり、「生物学的な観点から定量的な解釈を行ったのは本研究が初めてである」と、研究者は結論付けている。例えば、研究者が作成した、脳内の刺激とノイズレベルの相関を示す図がある。刺激が高ければ高いほど、ノイズレベルも高くなり、画像の解像度も高くなる。また、別の図では、脳内のさまざまな神経ネットワークが関与し、画像を再構築するためにどのようにノイズを除去するかを示している。

screen shot 2023 03 03 at 11030 pm

「これらの結果は、逆拡散プロセスの初期には、画像情報がボトルネック層で圧縮されることを示唆している。ノイズ除去が進むにつれて、U-Netレイヤー間の機能的分離が視覚皮質内に現れる。つまり、最初のレイヤーは初期の視覚領域で細かいスケールの詳細を表す傾向があり、ボトルネックレイヤーはより腹側のセマンティック領域の高次情報に対応する」と、研究者は述べている。

チームは拡散のさまざまな段階での画像変換を定量的に解釈している。このようにして、研究者は、広く使用されているがまだ十分に理解されていない生物学的観点からの拡散モデルのより良い理解に貢献することを目指している。

ジェネレーティブAIの進歩に伴い、AIモデルが人間の脳とどのように連携できるかを検証する研究者が今後も増える事が予想される。

「SFは未来を予言する」そんな言葉が思い起こされる。


論文

参考文献

研究の要旨

人間の脳活動から視覚体験を再構成することは、脳がどのように世界を表現しているかを理解し、コンピュータビジョンモデルと我々の視覚システムとの関連を解釈するユニークな方法である。近年、このタスクに深層生成モデルが採用されているが、高い意味的忠実度でリアルな画像を再構築することは、依然として困難な問題である。本論文では、機能的磁気共鳴画像法(fMRI)により得られた人間の脳活動から画像を再構成するために、拡散モデル(DM)に基づく新しい方法を提案する。具体的には、Stable Diffusionと呼ばれる潜在的な拡散モデル(LDM)に依存する。このモデルは、DMの高い生成性能を維持したまま、計算コストを削減することができます。また、LDMの異なる構成要素(画像Zの潜在ベクトル、条件付け入力C、ノイズ除去U-Netの異なる要素など)が、異なる脳機能にどのように関連しているかを調べることにより、LDMの内部機構を特徴付ける。我々は、提案する手法が、複雑な深層学習モデルの追加訓練や微調整を必要とせず、素直な方法で高解像度画像を忠実に再構成できることを示す。また、神経科学的な観点から、異なるLDM成分の定量的な解釈も提供します。全体として、本研究は、人間の脳活動から画像を再構成する有望な方法を提案し、DMを理解するための新しい枠組みを提供します。ぜひ、このURLで私たちのWebページをご覧頂きたい。

Follow Me !

この記事が気に入ったら是非フォローを!

Share!!
執筆者
Photo of author

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

記事一覧を見る

コメントする

CAPTCHA