21
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「新しい相関係数」について

Posted at

はじめに

今回は、「新しい相関係数」と銘打ったインパクトのある論文を紹介します。
この論文で定義を見ただけだとイマイチぴんと来ないかもしれないので、図を使ってわかりやすく説明します。
紹介する論文はこちら:

Chatterjee, Sourav. "A new coefficient of correlation." Journal of the American Statistical Association 116.536 (2021): 2009-2022.

Stanford大の重鎮による単著で、統計学4大誌のJASAに掲載。この記事の投稿時点ですでに500件近い引用があります。

これまでの相関係数

まずは簡単に古典的な相関係数をおさらいすることにしましょう。
以下、$\mathbf{X}=(X_1,\ldots,X_n),~\mathbf{Y}=(Y_1,\ldots,Y_n)\in\mathbb{R}^n$という2つのi.i.d.確率変数列が与えられているものとして、この2つの間に関連があるかを調べたいものとします。

1. Pearsonの相関係数

まず、最も一般的に相関係数と呼ばれるものは、Pearsonの(標本)相関係数で、ベーシックな統計学の教科書には必ず登場します。
標本平均を$\bar{X}=n^{-1}\sum_{i=1}^nX_i$のように定義して、以下で与えられます:

$$r(\mathbf{X},\mathbf{Y})=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2\sum_{i=1}^n(Y_i-\bar{Y})^2}}.$$

これは中心化した2つの確率ベクトル$\mathbf{X}$, $\mathbf{Y}$の内積をノルムで割って標準化したもので、まさに2変数間の類似度と解釈できます。

ここでよく言われる欠点は、Pearson相関係数は「線形の関係性しか捉えられない」という点です。つまり、$Y=aX+b$のような関係性は検出できる一方で、$Y=X^2$や$X^2+Y^2=1$のような関係性は検出されないことがあります。
非線形関係も含めた検出のためにはより強力な相関係数を用意する必要があります。

※ここでは分かりやすさのために線形と呼んでいますが、非ゼロの切片を許すので「アフィン」と呼ぶのが正しいです。

2. Spearmanの順位相関係数

つぎに、こちらも有名なSpearmanの順位相関係数を紹介しましょう。
「順位」を考えることで、「どの順番で大きいのか」だけを見るため、「どのくらい(相対的に)大きいのか」という情報が削減されます。これにより、非線形な問題を線形に帰着できる(=Pearson相関で扱える問題に落とせる)場合があります。

まず、$R_n(X_i)$を$X_1,\ldots,X_n$のなかでの$X_i$の順位(小さい順)として、それら順位をまとめたベクトルを$R_n(\mathbf{X})$と書きましょう。このときSpearmanの順位相関係数は次で与えられます:

$$\rho(\mathbf{X},\mathbf{Y})=r(R_n(\mathbf{X}),R_n(\mathbf{Y}))=1-\frac{6\sum_{i=1}^n(R_n(X_i)-R_n(Y_i))^2}{n^3-n}$$.

つまり順位変換後のPearson相関に対応していますね。

これだけ見てもよくわからないので、図でイメージしましょう。
まず、下のような形でそれぞれの変数のペアが得られているとします。
これは明らかに関係性がありそうですね。

image.png

これを順位に変換するということは、$\lbrace1,\ldots,n\rbrace\times\lbrace1,\ldots,n \rbrace$の格子状にデータ点を並べ直すということで、以下の図のようになります。

image.png

すると完全に直線上に並びましたので、このPearson相関は1(つまり元のデータのSpearman順位相関も1)になります。
このようにして、非線形の関係性を線形に帰着できるのです。

しかしSpearman順位相関にも問題がありました。
それは、「任意の単調な」関係性までしか捉えられない点です。
$Y=X^2$を想像したらわかる通り、順位変換しても線形に並ぶためには「単調な増大または減少」である必要があるのです。

その他

ほかにも、カーネル法ベースで非線形性を捉えたり、コピュラを考えたり、様々な関係性尺度が提案されてきていますが、その羅列は元論文に譲ることにします。

新しい相関係数:Chatterjee順位相関

ではようやく論文の紹介に移りましょう。
提案された「新しい相関係数」は、計算が軽量かつ、その値がゼロに近いことは「$X$と$Y$の独立」を、1に近いことは「$Y=f(X)$と書ける可測関数$f$の存在」を意味する、というすさまじいものです。

まずは定義を見てみましょう。
順位を見る都合上、簡単のためにタイ(全く同じ値)が存在しないとしましょう。

  1. まず$X_{(1)}\le\cdots\le X_{(n)}$となるようにデータ対をソートします。
  2. このとき$Y$は単体でソートせず、$X$のソートに従って元のデータ点全体を$(X_{(1)},Y_{(1)}),\ldots,(X_{(n)},Y_{(n)})$と書きます。
  3. $r_i$を$Y_{(i)}$の順位として、以下を定義します:
    $$\xi_n(\mathbf{X},\mathbf{Y}):=1-\frac{3\sum_{i=1}^{n-1}|r_{i+1}-r_{i}|}{n^2-1}.$$

元の論文中では、この定義の解釈に関する記述はほぼ見当たりません。
一体これだけ見て「なるほど!」と思える人がどれだけいるでしょうか…。

先ほどと類似した図を使って定義の直感説明していきます。
まず、以下のような10個の確率変数のペアを観測したとしましょう。

image.png

これを$X$に関して順位変換するわけですね。$\lbrace1,\ldots,n\rbrace^2$の格子状にデータ点を並べ直す
すると以下のようになります:

image.png

このときChatterjee順位相関は、おおよそ1から下の青線の長さの和を引いたものと理解できます。

image.png

この場合、青線の長さの総和は$3+3+1+3+2+1+4+3+1=21$なので、Chatterjee順位相関は$1-\frac{3\times21}{10^2-1}\approx0.364$となり、そこそこ関係性があることを示していそうな気がします。

結局のところ、「$X$と$Y$に関係性があれば、隣り合う点同士が十分近いはずだ」という直感を反映しており、どうやら妥当そうな指標だということがご理解いただけたのではないでしょうか。

具体的には、$Y=f(X)$という関係があるとき, 可測関数$f:\mathbb{R}\to\mathbb{R}$について

  • 連続な場合: 個々の青線の長さは定数オーダー.
    • $(n-1)$個すべて足し上げても$1/n^2$のスケーリングで消える.
  • 非連続な場合: 非連続部分の青線の長さは$O(n)$.
    • 有限個のジャンプなら$1/n^2$のスケーリングで消える.

という形で、漸近的な妥当性も十分そうです。

数値的な検証

では実際にもっとデータ点を増やして実験してみましょう。ノイズなしに3次関数の関係がある$Y=X^3$からデータを生成します。下の図では、上側がもとの座標系、下側が順位変換した座標系として、青線は残したままChatterjee順位相関$\xi$の値を示しています。
やはり、サンプルサイズが増加するにつれて正しく関係性の有無を判断できていそうですね。

image.png

ではまったく2変数間に関係性が無い場合はどうでしょうか。
下は$X\sim\mathrm{Unif}[-1,1]$と$Y\sim\mathrm{Pois}(5)$を独立に生成した場合です。
やはりちゃんと関係性が無いということを識別できていますね。

image.png

理論的な性質

Chatterjee順位相関は、だいたい以下のような望ましい性質を持つようです:

  • $\xi_n(\mathbf{X},\mathbf{Y})\overset{\rm a.s.}{\to}\xi(X_1,Y_1):=\frac{\displaystyle\int\mathrm{Var}(\mathbb{E}[1\lbrace Y_1\ge t\rbrace|X_1])\mathrm{d}\mu(t)}{\displaystyle\int\mathrm{Var}(1\lbrace Y_1\ge t\rbrace)\mathrm{d}\mu(t)}\in[0,1]$ ($\mu$: law of $Y_1$).
  • $\xi=0$は$X$と$Y$の独立性と必要十分, $\xi=1$は$Y=f(X)$となる可測関数$f$の存在と必要十分.
  • $X$と$Y$が独立で$Y$が連続値のとき$\sqrt{n}\xi_n(\mathbf{X},\mathbf{Y})\overset{\rm d}{\to}\mathcal{N}(0,2/5)$より独立性検定が構成可能.
  • 順位にしか依存しないので外れ値にロバスト。かつ$X$と$Y$の単調変換について不変で, 計算時間は$O(n\log n)$で早い.

なんか良いこと尽くしっぽいですね。

一応、シグナルが滑らかなとき他の独立性検定より検出力が低いと指摘されており、レート非効率が後に分かったものの、すでに対処法が考案されたりもしてるらしいです。

最後に

Sourav Chatterjee氏による「新しい相関係数」という強いタイトルに偽りなしの素晴らしい論文だったのではないでしょうか。

この記事が皆様の理解の一助になれましたら幸いです。

21
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
21
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?