はじめに
この記事は「ただただアウトプットを癖付けるための Advent Calendar 2024」に投稿した記事です。
最初の記事にも書いた通り、私は生物物理の実験を専門にしている研究者です。
最近はデータ解析のため機械学習のコード開発も行っており、幸いにもその成果がNeurIPSに採択されました。
今回の論文紹介は、トポロジカルデータ解析に踏み込んでみようと思います。
トポロジカルデータ解析とは、データのトポロジー的な特徴を解析する手法です。
私自身、もともと多変数パーシステントホモロジーに興味があり、NeurIPS2024に参加した際にこの論文のポスターを見つけて興味を持ちました。
関連記事
前の記事 「生物物理屋がファインチューニングに挑戦してみた話その3」
次の記事「生物物理屋がAWSに手を出してみた話」
TL;DR
多変数パーシステントホモロジーの解析を、グラフニューラルネットワークを用いて行う手法を提案しています。
論文
Graphcode: Learning from multiparameter persistent homology using graph neural networks
こちらはarXivに投稿されたプレプリントです。
前述の通り、NeurIPS2024にポスター発表された論文です。その際のポスターや説明動画はこちらです。
誰が書いたのか?
オーストリアのグラーツ工科大学の研究者らによって執筆されました。
パーシステントホモロジー
パーシステントホモロジーとは、いわゆるトポロジカルデータ解析の手法の一つです。
ある形があるとき、どことどこが繋がっていて、そしてどこは切れているかということに着目した抽象化をホモロジーといいます。(実際には主に、どこに穴があるかということに着目します。)
この抽象化はデータに含まれるスケール(距離)を忘れることに対応しているので、実際のデータ解析においてデータ点間の距離を考慮したい場合には不都合が出てきます。(そもそも点群データに対しては、点がたくさんあるという情報しか拾えません)
ここの利便性を向上したのがパーシステントホモロジーです。
パーシステントホモロジーは、各データ点をある大きさに膨らませ、互いに重なったら繋げるというルールによって、点群から形を構築します。
この'ある大きさ'の値をパラメーターとして振り、それぞれに対してホモロジーを考えることで、どの値からどどこに穴ができて、どの値でふさがるか、という情報を揃えることができます。
Birth-Deathプロット
パーシステントホモロジーにおける穴の生成と消滅の情報は、生成時と消滅時のパラメーターの値という、2次元のデータ点群として整理することができます。
このような整理によって描かれた図を、Birth-Deathプロットといいます。
トポロジカルデータ解析に用いる場合には、このBirth-Deathプロットを機械学習などにインプットすることが多いです。
多変数パーシステントホモロジー
上で説明したパーシステントホモロジーでは、点群データの"形状"がひとつのパラメーターに対してどう変遷するか、という情報が得られます。
対して、二つ以上のパラメーターに対する変遷を追うのが、多変数パーシステントホモロジーです。
これは、データ空間の各軸を同等に扱いたくない場合(時間座標と空間座標の混在など)や、データ点を選別するパラメーターを加えたい場合などに有効です。
特に後者については、データ点を局所密度によって選別するパラメーターを加えることで、ノイズあるいは外れ値に対する耐性を備えた解析につながることが報告されています。
ただし、多変数パーシステントホモロジーは、そのデータを処理可能な形に整理する難易度が跳ね上がっています。
Birth-Deathプロットを描こうとしても、BirthやDeathが曲線あるいは超曲面となってしまい、プロットに押し込めません。
データを整理する方法はいくつか提案されているのですが、煩雑で、少なくとも非数学者が扱うには難があるという印象です。
この点への解法となるのが、この論文の手法になります。
グラフによる多変数パーシステントホモロジーの整理
筆者らは、グラフによる多変数パーシステントホモロジーの整理を提案しました。
これは、以下のように実現されます。
- 1つ以外のパラメーターを固定し、そこでのパーシステントホモロジーからBirth-Deathプロットを取得
- 固定されるパラメーターの値を振って、それぞれで得られたBirth-Deathプロットを保存していく
- こうして得られたBirth-Death点のそれぞれをグラフのノードとする
- 固定パラメーターの値が近いBirth-Deathプロットのペアを取り、そこに含まれて同じ穴に対応するノード間はエッジを持つとする
要するに、BirthやDeathの曲線あるいは超曲面について、1つ以外のパラメーターを固定することで得られる軸(あるいはBirth値とDeath値からなる平面)との交点の集合として取り扱うようなことをするわけです。
これはかなり直観的な操作ですので、出力されたものの意味を理解しやすい手法になっていると思います。
多変数パーシステントホモロジーの、グラフニューラルネットワークによる取り扱い
上記の手法で出力されるものはグラフですから、ただちにグラフニューラルネットワークによって扱うことができます。これも本手法の重要な利点です。
実際に論文の中でも多変数パーシステントホモロジーからグラフニューラルネットワークを介して分類タスクなどを試し、従来手法より良い精度を得たと報告しています。
まとめ
多変数パーシステントホモロジーは複雑なデータ空間を扱うのに適した手法ですが、その出力もまた複雑でした。
この論文の手法により多変数パーシステントホモロジーの学習コストが下がれば、データ点群の形状に着目した解析が盛んになると思います。
パーシステントホモロジー自体、ホモロジーに根ざしているという解釈の透明さが魅力の一つになるのだと思います。
これが盛んに用いられ、データが溜まっていくことで、各種データが生まれる背景とデータ形状との関係性がより深く理解されていく、そういう道筋も期待したいところです。