当記事の位置づけ
- この記事は、「英語でデータ可視化を学ぼう:第7回 」における発表資料です。
- 翻訳箇所は、「7 Visualizing distributions: Histograms and density plots」です。
概要
- データを可視化する際によく使うヒストグラムや密度プロットについての解説です。
- 今回の内容を翻訳する際に参考になりそうな内容が、こちらのサイト:マンガと学ぶデータビジュアライゼーションでも記載が有りました。
内容
7.0 まくら的な部分
-
ある変数がデータセットの中で、どのように分布しているかを確認したいこと、ありますよね。
-
例えば、第6章でも出てきたタイタニック号に乗っていた乗客リストですよ!
-
1300人の乗客がいて、756人については年齢も分かっています。
-
何歳の人(幼児、子供、大人、高齢者)が何人乗っていたのか、という事を知りたいとします。
-
様々な年齢の人の全体に占める分布を年令分布と呼びます。
-
参考
- タイタニックデータセットといえば、こちらの @makaishi さんの記事「ダッシュボードでタイタニック・データセットを分析しよう」も、データの可視化の参考として非常に面白いです。
- 上記記事では、IBM のCognos Dashboard を使用しています。
7.1.Visualizing a single distribution(単一の分布を可視化)
- 年令グループ毎の、年令の幅を横幅、そのグループに入る人数を縦幅として、色塗りの帯(※)でそれを可視化する事をヒストグラムと言います。(以下図7.2)
- ※:原文では瓶(bin)と記載していますが、日本語の場合、帯のほうが伝わりやすそうなので帯、と翻訳しています。
- 帯はすべて同じ幅でなければ正しく情報を伝えられるヒストグラムとは言えません。
- データは帯で表現されるので、その帯の幅(年令幅)によって正確さが変わってきます。
- 可視化ソフトでヒストグラムを作ると、その幅はデフォルトで決まっていることがありますが、それが伝えたい内容を必ずしも正しく反映しているわけでは有りません。
- そのため、毎回どんな幅が正しく内容を伝えられるかを試す必要があります。
- 幅を小さくしすぎると、尖ってうるさい感じのグラフになって、伝えたい全体の傾向がぼやける可能性があります。
- 逆に幅を大きくしすぎると、小さな特徴を消してしまうおそれがあります。
- タイタニックのデータで言えば、年令幅が1歳(左上)だと小さすぎ、15歳(右下)だと大きすぎ、3歳(右上)から5歳(左下)の幅が適切であることがわかります。(以下図7.2)
- 図7.2
- ヒストグラムは帯の幅に依存します。
- 上記は同じ年齢層のグループを、4つの帯幅でそれぞれ表現しています。
- 1年、3年、5年、15年です。
- ヒストグラムを作成する際は、複数の幅を試してみましょう!
7.2.Visualizing multiple distributions at the same time(同時に複数の分布を可視化)
- 多くの場合、同時に可視化したい複数の分布を持つことがあります。
- 例えばタイタニックの乗客
- 男性と女声の間で年令の差はあるのか。
- 一つのやり方が「積み上げヒストグラム」
- 女性の帯を男性の帯の上に乗せてみたのが以下の図7.6です。
- 例えばタイタニックの乗客
- 図7.6:
- タイタニックの乗客を性別ごとに階層化した年令ヒストグラム。
- この形式は「悪い」と認識されています。
- 理由
- 積み上げヒストグラムは前後で重なり合っているんじゃないかという誤解を与えるため。(図7.7参照)
- 女性側のヒストグラムが開始位置が揃っていないので比較しづらい
- 理由
-
作者の見解
- この手の可視化は避けるべきです。
- 2つの問題があります。
- 1.帯の開始位置が不明瞭。
- 帯の色が変わる箇所が開始位置なのか?
- ゼロの位置が開始位置なのか?
- 18歳から20歳の女性は25人いるのか?80人いるのか?
- 2.女性の帯を直接比較できません。開始位置がそれぞれ違っているからです。
- 例えば、男性の平均年令は女性の平均年令より高いが、それがこの図7.6では分かりづらいです。
- 1.帯の開始位置が不明瞭。
-
この問題をすべての帯をゼロ位置から開始して帯の色を半透明にすることで解決しようとします。(図7.7)
- 図7.7
- タイタニック乗客の男女の年令分布。
- 2つの重なり合った帯で表されています。
- この図も「悪い」と認識されています。
- 理由
- 青の帯がゼロから始まると明示されていません。
- 理由
-
しかしながらこの図にも問題があります。
-
実際のところ、2つではなく3つのグループがあるように見えるし、それぞれの帯がどこからはじまってどこで終わるのかが明確ではありません。
-
重なり合ったヒストグラムがよくないのは、第1と第2がかさなりあった部分が「1と2が重なり合ってますよ」という事を表現するかわりに「第3の別勢力ですよ」という印象を与えるからです。
-
重なり合った密度プロットには、重なり合ったヒストグラムのような問題は無いのは、連続した密度線がそれぞれ(男と女)の分布がそれぞれ別である事をわかりやすくしているからだです。
-
このデータでは、17歳くらいまでの男女の分布はほぼ同じであり、そこから異なってきているので、まだ理想的とは言えません。(図7.8)
- 図7.8
- タイタニック乗客の男女の年令の密度推定。
- 女性乗客よりも男性乗客のほうが多かったという事を強調する為に、曲線の下の面積が、年令が分かっている男女の数(それぞれ468人と288人)を表現するように密度線をスケーリングしました。
- このデータセットでうまくいく解決策は、男女の年令分布を分けるという事です。例えば全体からみてどの程度、というように。(図7.9)
- この可視化では20代から50代までの年齢層では男子絵が女性よりも数が多い事を直感的に明らかに表現できています。
- 図7.9
- タイタニック乗客の年齢分布
- 乗客総数に対する割合としての表示
- 色付きの場所は男女乗客の年令の密度推定であり、灰色の場所は乗客の全体数。
- 最後に、2つの分布を性悪に表現するため、2つに別れたヒストグラムを作成しました。
- 図を90度横に回転させて、片方のヒストグラムをもう一つとは逆側に配置しました。
- 年令の分布を表現するときによく使われる手法で、年令ピラミッドと呼ばれます。(図7.10)
- 図7.10
- ピラミッドとして表現されたタイタニック乗客の男女の年令分布
ものすごく蛇足を書きますが、上記の図7.10ってすごくガンダムに出てくるアクシズという小惑星っぽい形をしているように見える。というかそれにしか見えない。
( https://dorasuta.jp/battlespirits/product?pid=429918 より )
- 重要な事だが、この手法は同時に表現したい要素が2つを超過する場合には使えません。
- 複数の分布を表すにはヒストグラムは混乱しがちである一方、密度プロットは分布が明確で連続的である場合には有効です。
- 例えば、4つの異なる牛の品種の乳脂肪分の割合を表現するには、密度プロットは有効です。(図7.11)
- 図7.11
- 4つの異なる牛の品種の乳脂肪分の割合についての密度推定。
- 出典:カナダの純血種乳牛の成績記録
- (久保の感想:確かにジャージー乳牛のミルクをつかったアイスとかよく売れてるよな。。。)
- 複数の分布を一度に視覚化するには、通常、ヒストグラムよりもカーネル密度プロットの方が適しています。