個人的に読んだ論文を箇条書きのメモにまとめています。
備忘録的なものです。
今回読んだ論文はこちらです
Matteo Ferrante, Tommaso Boccato,Nicola Toschi (2024).
"Towards neural foundation models for vision: Aligning EEG, MEG and fMRI representations to perform decoding, encoding and modality conversion"
リンクはこちらです。
https://openreview.net/forum?id=nxoKCdmteM¬eId=uqF93WpouN
この論文をざっくりと説明すると、
「CLIPを活用して、fMRI,MEG,EEGの脳活動データと視覚刺激の表現を整合させる基盤モデルを作成した研究」です。
メモ
Summary
対照学習(CLIP)を活用して神経データと視覚刺激の表現を整合させる新たな基盤モデルの作成をしている。EEG,MEG,fMRIを使用している
3つの方法で基盤モデルの有用性を示した。
1.神経データから視覚情報のデコーディング
2.画像から神経表現へエンコーディング
3.神経計測モダリティ間の変換
結果は、異なる脳イメージング技術間の意味情報を正確に捉える性能を評価した。
Intro
イントロの冒頭で、関連研究についてまとめてくれている
- 本研究は、視覚における神経基盤となるモデルを提供する
- EEG,MEG,fMRIで取得した異なる計測記録を統一するような表現を作る
- 基盤モデルの作成にはCLIPによる対照学習モデルを用いた
- 3つの方法で基盤モデルの評価をした
評価手法
1. 神経データ(fMRI,MEG,EEG)から視覚情報(画像)のデコーディング
2. 画像から神経データ(fMRI,MEG,EEG)へエンコーディング
3. 脳計測モダリティ間の変換
- これらの評価手法により、神経活動と、視覚認知とのギャップを埋めるだけでなく、どのように脳が視覚情報を処理するかに関して深く理解することに役立つ
Related Work
- これまでの研究でいろんなモデルを用いてfMRIのエンコーディング、デコーディングをやってきた(VAE-GAN,sparse linear regression diffusion model visual&language model)
- 今回の研究は従来の研究と手法は類似しているが、従来の研究の大部分は単独のモダリティによるデコーディングに集中しており、対照学習を(data-retrieval)のみ使っており、刺激画像の再構成は他の生成的手法を組み合わせてやっている
- 対照学習は、類似しているデータと類似していないデータの差分を取り、意味的に一致する表現の整合と判断を促進する
- 本研究では、この対照学習のアプローチをデコーディングだけではなく、エンコーディングにも適用する。視覚刺激領域と神経領域の双方向のつながりができる
- モダリティ変換機能もあるので、あるモダリティで得られた神経活動計測から得られる意味内容の変換が可能となる
- これにより脳機能のより統合的な理解を促進し、神経解析の包括的な理解の手掛かりになる
Method
データ
- EEGのデータは、ImageNetEEGデータセットを使用
- MEGのデータは、THINGSMEGデータセットを使用
- fMRIのデータは、NSD(Natural Scences Dataset)を使用
Neural Vision Alignment(おそらく具体的なモデルの中身についての説明)
- 異なる脳計測モダリティの神経表現を整合させために、CLIPで得られた画像表現を用いた
- 具体的には訓練済みCLIP画像エンコーダーによる画像分類埋め込みを使用した
- CLIPのよる画像エンコーダーで得られるベクトルを$h$とする
- それぞれの脳計測モダリティの表現を$z_i=f(n,s)$とする
- $f_n$は$a_n$と$g_n$の畳み込みによって表される
- $a_n$はさまざまな被験者から得られる神経データを統一された表現空間に収めるためのレイヤー
- $g_n$は視覚表現により近くマッチするために洗練する共有ネットワーク
- CLIPの画像エンコーダーによって得られる画像表現を$z_j=h(img)$とする
- MEGとEEGのニューラルネットワークとしてCNNを採用
- fMRIはMLP(多層パーセプトロン)を採用
PytorchフレームワークのAdamWを使っているが本質ではないので、後で勉強しておく
- logits(類似性)は$z_i$と$z_j$の内積で求める
- $τ$はソフトマックス関数の温度パラメータ
どうやらこれが損失関数なので、これを元に学習しているらしい
EEG,MEG,fMRIのエンコーディングに関して詳しく記載されていないので、引用文献から探す必要あり。
Experiments(3つの手法でのモデルの評価)
- EEG,MEG,fMRIの神経データを共通の表現空間に投影する
- 実験に使用した画像データセットとの類似性を計算する。
- 神経表現に最もマッチする画像をn個取り出して、top-nの画像の中に正解の画像が含まれている割合で評価(top-1とtop-5でやってる)(デコーディング)
- 画像データセットを画像エンコーダに通して、top-nの神経表現を取り出してくる(エンコーディング)
- 例えば被験者が特定の画像を見ているときのfMRI表現があったときに、意味的に類似している画像を見ている時のEEGやMEGはどうなる?という問いに対して、他のモダリティからtop-nの神経表現を取り出してくる。(モダリティ変換)
- このモダリティ変換の有効性を示すために、それを見ているときの画像を用いて比較する
デコーディング評価
- ImageNetEEGとTHINGS MEGはクラスがあるので、top1とtop5 accuracyを求める
- fMRI(NSD)はCLIP-2way accuracy metricを用いた
- 比較しやすいようにEEG,MEGもCLIP-2wayを使った
エンコーディング評価
- エンコーディングは、画像を入力として、関連した神経表現を取り出すものである。
- 神経表現は可視化や解釈が難しい
- CLIP-2wayの指標を用いて特定の画像に紐づけられた神経表現とエンコーディングモデルによって取り出した神経表現を比較した
- エンコーディング精度の可視化として、エンコーディングモデルが取り出した神経表現に紐づけられた画像と、モデルの入力画像を比較した。間接的な比較
モダリティ変換評価
- エンコーディング評価と同様にCLIP 2-wayを用いた評価をしている
- 元となるモダリティの画像と、変換先のモダリティの神経表現に紐づけられた画像とで比較する
Results
モデルの評価の結果
デコーディング結果
-
EEGデータのデコーディングはCLIP-2wayの精度が79.4%もあることから、かなり高いと言える
-
しかしこれらの性能を他の見かけ上高性能な結果を出した文献と直接比較することは難しい。このデータセットが間違った前処理によって訓練用とテスト用のデータセットのコンタミが起こっていることがあるから。
-
ただし前処理をして交絡因子を除いた結果と比較すると、ほとんど差はなかった
-
MEGで他の研究のtop-5accuracyが[1~8%だった]
エンコーディング結果
モダリティ変換結果
Discussion
- この研究の神経基盤モデルが、神経データを通した、脳のメカニズムの統合的な理解に寄与した
- 自然言語処理分野における大規模言語モデルのように神経データに関しても基礎的なフレームワークを構築すること
- このモデルの中枢となるポイントは、マルチモーダルに表現が揃えられていることである
- しかし、異なる計測モダリティを揃えて同一のモデルの表現に落とし込むにあたって幾つかの問題がある
- 今後言語や音声といったモダリティをモデルに組み込むことやより広範な神経計測データを使用することで、脳の潜在的な表現を理解するのに役立つ
- 技術が進む一方で、神経データのプライバシーという問題が生じる。神経データから画像をデコーディングできると、プライバシー保護の必要性が高まる
Conclusion
- 次のステップとして、生成機能や、画像や音声といったモダリティの追加によってモデルを拡張して、脳機能の包括的な表現を広げていく