#元論文
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006633
#どういう論文なの?自分の言葉でまとめると?
→脳内でみている映像を可視化するぞ!という論文。結果を見たら、意外とぼんやりしてるんだなぁと思いました。(もちろん精度の悪さもあると思われる)
#詳しく
まず画像を見ている状態で、fMRIの反応を測定する。その測定状態において、fMRI→画像の特徴量を生成するものがある。
すなわち、本来であれば、画像→特徴量なのだが、それをfMRI→特徴量としている。この点で精度が画像→特徴量よりも低いのは致し方ない。むしろここにこそ、曖昧さが存在していて、創造性研究に役立つ可能性もあると思う。
そしてその結果から、画像の特徴量が得られる。これはおそらくCNNみたいな感じで、複数のレイヤーにおける特徴量が得られると思う。すなわち浅いレイヤーでは具体的な形を捉えており、深いレイヤーでは抽象的な形を保持しているものと考える。
これらの画像の特徴量に関する複数のレイヤーをうまく組み合わせる2つ目のネットワークに通す。
すなわち、特徴量から画像を生成するというCNNの逆を行うDGNというネットワークモデルを使っている。
結果として、アルファベットなどの幾何学的な構造はうまくいった。
しかしながら、複雑な状態の画像を想像してもらう→それを画像化 というのはものすごく難しかったとの結果。 原因としてはネットワークにもあるだろうが、おそらく人間の想像力ではそこまで詳細に描けないという点が挙げられる。
#思ったこと・興味
プロ棋士の頭の中を描いてみたい。それをしてみたらどのくらい詳細に画像を描くことができるのだろうか気になる。
人それぞれ違うということもあり得るだろう。
宮崎駿も見てみたい。
fMRI→画像の特徴量 という変換ネットワーク。この時点で結構な論理的飛躍が起こっていて、精度が低いのかなぁと思った。
もちろん 画像の特徴量→画像生成 というDGNの精度も低いのだと思う。
精度が悪いフィルタを2つ通すことで、結構下がっているのは共通認識っぽいなぁ。ただその精度の悪さでも、今はアルファベットくらいなら画像生成できるのがすごいと思った。