ここでは隣り同士で値が似通った系列データを考える。
例えば以下の様なもの(サイズは30×20、横軸は時系列、縦軸は変数をイメージ、ただしDiagonalはネガコン的に入れているだけ)。
このような行列データに対して、主成分分析などの次元圧縮を用いてデータを2次元にプロットした際、データ点がU字状に並ぶことがある。これを馬の蹄鉄をもじって馬蹄効果という。
このようなパターンは、しかしながら、データに実際に周期性があるかどうかには無関係に現れる見かけの周期性であり、誤った解釈に繋がる危険性があり注意が必要である。
馬蹄効果はこれまでにPCA以外にも、MDS、Isomap、LLE、カーネルPCA、ラプラシアン固有マップ、拡散マップ、SSA、時系列k-means...など、様々な固有値分解ベースの行列分解手法で観測されている。
なぜ馬蹄効果が出てくるのか、数学的な説明は割愛するが、ここでは上記のデータで実際にU字が出るかを確認した。
PCA(prcompを利用)
確かにU字が現れるようだ。
端が丸まってハート型になったり、円を描いたりしてるものもある。
元の高次元データが周期性があるか否か判断できないような短い時間でサンプリングされたものであっても、隣同士が似ているという特徴を与えるだけで、低次元では曲がるのである。
LinearはPC1は線形にデータを配置しており、正しい構造であるが、PC2で細かく振動している。
Hankel行列だけはなぜかすごくこの2次元空間で回転することがわかった。
CA(FactoMineR::CAを利用)
対応分析(Correspondence Analysis; CA)の文脈では、U字がやや引き延ばされた結果になりやすいため、アーチ効果と呼ばれるらしい。
確かにアーチ状のものが多い。
Linearは計算が安定せず乱数次第で、色々な見た目になった。
ここでもハンケル行列は激しく回転することがわかった。
引用文献
- Shah, N. & Meng, Q. & Zou, Z. & Zhang, X. (2024). Systematic analysis on the horse-shoe-like effect in PCA plots of scRNA-seq data. Bioinform Adv. 4(1), vbae109. 10.1093/bioadv/vbae109
- Morton, J. T. & Toran, L. & Edlund, A. & Metcalf, J. L. & Lauber, C. & Knight, R. (20187). Uncovering the Horseshoe Effect in Microbial Analyses. mSystems. 2(1), e00166-16. 10.1128/mSystems.00166-16
- The Guttman effect: its interpretation and a new redressing method.
- Resemblance Coefficients and the Horseshoe Effect in Principal Coordinates Analysis. Ecology, 83, 3331-3343. 10.1890/0012-9658(2002)083[3331:RCATHE]2.0.CO;2
- Proix, T. & Perich, M. G. & Milekovic, T. (2022). Misinterpreting the horseshoe effect in neuroscience, bioRxiv, 10.1101/2022.03.04.482986
- 井手剛, (2006). 部分時系列クラスタリングの理論的基礎, 2006年度人工知能学会全国大会(第20回), 2A1-2, 10.11517/pjsai.JSAI06.0.94.0