回帰分析のサンプルデータセットとして非常によく使われているボストン住宅価格のデータですが、昨今、これが問題視されているという話を聞きました。このデータセットには黒人の割合という項目が説明変数として含まれているのですが、これが問題だというわけです。sklearnからは近々削除されるようです。
まーたポリコレかよ、データはデータなんだからそれはそれとして受け入れろよ、という感想を私も最初持ったのですが、ちゃんと調べたらどうやら違うようです。
結論から言って、このボストン住宅価格データセットは黒人割合の説明変数におかしな加工をしておりそれがデータ分析方法として正しくないということらしいです。さらに言えばよくある解説で「黒人の割合」と説明されるカラムの値は実際には黒人の割合とは言えないと解釈して良いと思います。
データセットの元ネタ
前提として、このデータセットは1978年に出された大気汚染の度合いと住宅の価値を関係性を調べることを目的とした論文が元になっています。論文では大気汚染の度合いのほかに住宅価格を決定しうる要因として色々な説明変数を用意してそれら変数変数と住宅価格の相関関係について論じている感じです。ちなみにその論文は以下から誰でも読めます。
説明変数:「黒人の割合」の真実
その説明変数のうちの一つに黒人の割合が使われています。問題は黒人の割合が使われていること自体よりも、割合の数値を素直にそのまま使わず、加工を施したものを説明変数にしていることにあります。黒人の割合をB
とすると、説明変数としてデータセットに含まれるのは(B - 0.63)^2
を計算した値になっているのです。
この変換はグラフにすると0.63を頂点とする下に凸な二次曲線であり、黒人の割合が0.63の時に最小値0をとりそこから黒人の割合が0方向に行っても、1方向に行っても増加するという形状です。例えば真の黒人の割合B
が0.83でも0.43でもデータセットの値は同じ0.04なのです(正確にはデータセットの値はこれを定数倍している)。
問題点
このデータセットを使ったデータ分析には大きく二つの問題が生じている考えています。一つ目はデータセット自体の問題と、このデータセットを使ったデータ分析の解説(記事、講座等)の問題です。
データセット自体の問題
データセット自体の問題として、まずこのB
に対する変換に根拠が乏しいという点があります。論文には、住宅価格は白人にとって黒人が望ましくない隣人であるとするなら黒人の割合が上がるにつれて下降する、しかし黒人が極端に多ければそれはそれで市場の分離によって価格が上がるはず、と書いてあります。論文はこの件に関係する別の論文を引用しているのですが、そこでは価値の最低値を示す黒人割合が存在するということは言ってないようですし、当然その傾向が二次式で近似できるという根拠もありません。
さらに実際の黒人の割合B
がデータセットからわからないのも問題です。先ほどの例のようにこの変換は異なる2つのB
の値を同じ値に変換してしまいます。よってデータセットの値から元の黒人割合を逆算することはできません。データセットの値がこのような不可逆な変換によって元の値がわからないようになっているのは問題です。その変換が妥当であるかどうかが怪しい場合はなおさらです。
解説の問題
このデータセットは回帰分析の入門解説などでサンプルデータとして非常によく取り上げられていますが、多くの解説がこの(B - 0.63)^2
のカラムを「黒人の割合」と呼称しています。しかし、よく考えればわかるようにこれを「黒人の割合」と呼ぶには大いなる語弊があると思います。真の黒人の割合B
と(B - 0.63)^2
ではそもそも大小関係が一致しません。黒人の割合から導いた数値であることは確かですが、単純に「黒人の割合」と言われたら値が大きければ大きいほど割合が大きいのだと考えるのが普通なので、この呼称は正しいとは言えないと思います。
この値の意味を正しく表現するのは難しいですが、あえて言うなら「黒人と白人の混合度の逆数」といった感じですかね。中心だと値が0でそこから白人だけの街になっても黒人だけの街になっても値が上昇するからです。まあ0を取るのがB=0.63
のときであることや二次式であることの根拠がない以上この表現も正しいとは言えない気がしますが。結局「黒人の割合から計算した値」みたいに呼ぶしかないかもですね。
解説ではこの変換式を示してあることも多いですが、全く示してないことも多々あります。このカラムを「黒人の割合」と呼称しながら変換式を示さないのは当然問題だとして、変換式を示してあってもその変換の意味するところについて解説するものはほぼなく、やはり問題だと思います。この変換は数値の意味を根本的に変える変換であり、式だけ載せれば良いというものではないはずです。
まとめ・感想
以上のように、ボストン住宅価格のデータセットを使った分析にはポリコレを除いたとしても大いなる問題が含まれているということで、使うべきではないという流れがあります。代わりにカリフォルニアの住宅価格のデータセットを使うのが良いらしいです。
というか、データ分析やる人なら誰でも知ってると思われる有名データセットがこんな大きな問題を抱えているのに今まで誰も気づかずにみんなで使ってたってことになると、ほんとにデータ分析ってどうとでも騙せるんだろうなあとか思ってしまいますね。まあネットの記事とかが適当なだけで、プロなら実はみんな知ってた事実なのかもしれないですけど。みんな使ってるからOKという常識を疑うことがいかに難しいかを思い知りました。
参考
大体この記事を参考にしました。