・ ガウス分布(正規分布)
・ 中心に観測点が多いイメージ(低次元)
・ 高次元のガウス分布になるとメロンの皮みたいになる
次元の呪い
機械学習では「次元の呪い」と呼ばれるものがあって、高次元になると、データが奇妙な振る舞いをしたり、扱いが難しくなったりするらしいんです。でも、わたしは3次元空間に住む、3次元の人なので、高次元のことは目で見ることができませんし、頭の中で想像するのも難しいですよね。
自分がふだん、研究の解析で扱うのは(次元削減して)3-4次元くらいにしてます。理由はいろいろあって、現実の小規模データを扱うことが多いので、たとえば、気温が変われば条件が変わる、ロットが変われば条件が変わる、でもなんとかしたい、となると、変数が少なめで「あ、ここかな?」っと思うあたりを調節するとなんとかなる、というニーズも結構あります。
メロンの皮とは
高次元のデータの性質の一つに、「メロンの皮」というのがあります。ふだん、真ん中らへんが多い印象のガウス分布ですが、多変量のガウス分布で、次元がたくさんになってくると、中心からの距離が大きくなってくるんですね
言われてみれば、100個もある、全部の変数がみんな真ん中あたりの観測点なんて、そもそも確率から考えて起こりにくいですよね。
そこで、どんな風になるのかと思って、ちょっとGIFアニメ、作ってみました。
こちらは、多次元ガウス分布の観測点1000個を、変数の数を変えて、10個とか、100個とか、1000個とか作ったときの、原点からの距離をまとめたものです。ヒストグラムが、右へ動いているのがわかります。次元が増えると、どんどん中心(=原点)から離れていくんですねー
上手いこと円の上の観測点が乗っているイメージを作るのに、どうしようかな、と思って調べてみて、ベクトルとベクトルの角度を出してみたんですが、なんか意外と全然狭かったので、-pi から piに無理やり広げて、あたかも円の上に乗っているようにしてみました。
まるで、メロンの皮みたいにうすいですね
もちろん、各観測点は、実際には、10 20 100とかの多次元空間の(超)球にごろごろ分布しているはずで、中心からの距離が遠くなるって言っても、そもそもそれがイメージできないので、円で描いてみました。
異常検知で、ホテリング統計量と言って、分布の中心から観測点までの距離を求めたりすることがありますが、低次元ではそういう方法が使えるけど、高次元では中心がスカスカになってくるので、それが使えなくなってくるんですかね。
なので、マスクメロンの網目みたいに、球面上での位置関係のほうが重要になってくるという
網目の頂点が観測点のイメージですね(3次元のマスクメロンの場合)
今回は、上の例のように互いに独立した多次元ガウス分布で作りましたが、次回は、変数同志に相関がある場合の「メロンの皮」も、見てみます!
次回「デコポンの皮の呪い」へ