【一言で言うと】
言語コーパスデータセットが持つ固有次元は数~数十と低い次元にあることを検証した
【タイトル/URL】
「言語の固有次元を測る」
https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/E6-1.pdf
【まとめ】
言語のような大規模な高次元データは、実際は小さな次元の多様体上に存在していると推測されている(多様体仮説)。
しかし、多様体はねじ曲がった曲面を形成していることが多く、多様体の次元を計測することは難しい。
この研究では、そのような問題をある程度回避するために、TownNNという新しい固有次元推定アルゴリズムを提案し、実際に7種類の英文データセットで計測を行っている。
【感想】
データセットがもつ概念的大きさの比較ができるので素晴らしいと思う。
データセット間の比較もできるのだろうか?
データセットAとBを測った後に、A+Bを計測すればいいのかな・・。。