本記事の位置付け
下記読書会のためのまとめです。
課題図書
この記事に出てくる図は、上記ページから引用したものです。
今回の範囲
11 Visualizing nested proportions
ここまでは分類の種類・グループ(categorical variable)がひとつのときを扱ってきました。しかし、複数の分類グループを一度に扱いたいときも多くあります。例えば、
- 議会の議席比率について、党や、議員の性別に基づいて分類
- 人々の健康状態について、結婚しているかどうかに基づいて分類
こうしたケース(ネスト化された比率のあるとき)においては、モザイクプロット、ツリーマップ、パラレルセットといった手法が可視化に適しています。
11.1 失敗例(Nested proportions gone wrong)
ネスト化された比率の可視化がうまくいかなかったときの例をふたつ、見ていきましょう。
本節では一貫して、「ピッツバーグの106の橋」についてのデータセットを使います(材料、設置年代などの情報を含む。特に設置年代については1870年以前をCrafts、1940年以降をmodernと呼ぶ)。
以降、ピッツバーグの橋 であれこれ試していく流れ
データセット提供元と思われるURL
https://archive.ics.uci.edu/dataset/18/pittsburgh+bridges
円グラフを使いたくなるかもしれませんが、「材料」「設置年代」というふたつの分類をもつこのデータセットに対してはうまくいきません(足すと100%超えている)。
これは、別の分類グループを混ぜたことで、橋を二度数えてしまっているために起きています(ひとつの橋が、材料が鋼鉄であり、設置年代がCraftsというように、それぞれのグループの属性を持つ)。
「bad」や「ugly」ではなく、「wrong」の例は、強烈な印象
足して100%になることを必要としない比率を選んだ時、必ずしも毎回二度数えてしまうことが問題になるわけではありません。横に並べた棒グラフを使った例をみてみます。
この場合は、(円グラフのように合計して100%にならなければいけないというわけではないので)技術的に誤りとはなりません。ですが、bad のラベルをつけています。それはパッと見て、重複があること(複数の分類グループがあること)がわからず、Casual observer は(同じ分類グループのなかの)5個の種類があると結論付けてしまうかもしれないためです。
(例えば「modernの橋は、鋼鉄でも木材でも鉄でもないものを、材料にしている」とみなしてしまう)
「Casual observer」目線、パッと見てどう見えるか検討、大切
11.2 Mosaic plots and treemaps
重複のある分類を使うときは、それらの関係をわかりやすく示せることが理想的です。モザイクプロットはそうしたときに向いています。一見、積み上げ棒グラフに似ていますが、高さと幅(縦と横)がそれぞれ異なるという点で異なります。
設置年代についてはここまでの1870年以前をCrafts、1940年以降をmodernに加え、1870-1889年をemerging、1890-1939年をmatureとします。こうすることで、各種類の合計が100%(すべてのデータをカバー)となり、材料が鋼鉄、木材、鉄の3種類で100%となるのと同様になります。このすべてのデータをカバーすることは、「モザイクプロットにて用いる分類」への必須の条件となります。
モザイクプロットを描画するために、まず横・X軸に、ひとつめの分類グループ(ここでは設置年代)を置きます。次に縦・Y軸にふたつめの分類グループ(材料)を置きます。
可視化の結果が大きく変わるのでどちらをひとつめに選ぶかは検討しどころ・・・(ひとつめの分類グループX軸に選んだ分類のなかに、ふたつめの分類グループY軸が入る形)
モザイクプロットとツリーマップはとても似ていますが、強調するポイントや、向いている適用領域が異なります。
前述のモザイクプロットでは、使用材料の、時系列でみた発展の仕方が強調されている(徐々に鋼鉄に一本化していく様子)のに対し、ツリーマップでは材料ごとに総量が強調されています(三つのおおきな四角をみれば量の比率がわかる)。
モザイクプロットと関連しつつ、でも異なるフォーマットであるツリーマップを使って可視化することもできます。
おおきな四角のなかに、ちいさな四角を配置するのはモザイクプロットと同じですが、ちいさな四角の配置の仕方が異なります。再帰的にお互いの内部に四角をネストしていきます。
In a treemap, we recursively nest rectangles inside each other.
モザイクプロットはネストひとつ(繰り返しちいさな分割をしていくことはできない)なのでそこが異なる?
ふたつを超えて、より小さな分割を、ネストしていくことも可能ですが、比較的すぐに見づらくなるでしょう(もっとネストすることはできるけどそれほどおすすめではない)。
より一般的にいえば、モザイクプロットは、ふたつまたはそれより多い分類グループの組み合わせですべての比率を識別できます(材料からひとつ、設置年代からひとつ、選ぶことでエリアを特定可能)。また、ふたつめの分類グループからのすべての組み合わせがあり得ることを原則上では想定します(実際には、これは当てはまらず、前述のモザイクプロットの例のように、crafts かつ steel は無かったりする)。
ツリーマップはこのような制約はありません。複数の分類グループを組み合わせてもさほど深い意味をもたないときなどに、ツリーマップはうまく働きます。
In fact, treemaps tend to work well when the proportions cannot meaningfully be described by combining multiple categorical variables.
複数の分類グループからの様々な組み合わせを見ていくことにあまり意味が無いようなとき?
アメリカを四つの地域にわけ、さらに、各地域を州で分けた例です。
州は地域ごとに別々のセットになるので、ほかの地域の、同じ州という組み合わせは無い
ちいさい四角の面積を、地域またいで比較することができるので、アラスカはやっぱり広い、などがわかりやすい(さらに色の濃さが人口比率を示しているので、人口少なめ、もわかる)
モザイクプロットもツリーマップも、よく使われ、有益な情報をもたらしますが、制限もあります。積み上げ棒グラフも同様でしたが、必ずしもそれぞれの四角が同じベースラインを共有しているわけではないことから、直接の比較がしづらくなりがちという点があります(前述モザイクプロットにて「emerging かつ 鋼鉄」と「mature かつ 鋼鉄」は同じ 3 ではあるもののそれが見づらいというような)。
可能であれば、読み手が直感的な解釈が正しいのか確認できるように、実際の数値やパーセンテージをプロット上に示すことをおすすめします。
11.3 Nested pies
冒頭で円グラフよりも、モザイクプロットとツリーマップが向いていると述べましたが、データの値を面積で示すという点では、これらふたつの手法と円グラフは類似しています。主な違いは使っている座標の違いです(前者は極座標、後者ふたつはデカルト座標)。そうなると、円グラフに何らかの工夫をすれば適した可視化ができるのではないだろうかという疑問も湧いてきます。
興味の湧きそうな導入部分
まずひとつめの案から。
内部と外部でふたつの部分に分けて円グラフを構成してみます。これは理にかなっていますが、ふたつの部分に分けられたことで、それぞれの橋は、ふたつの分類グループに属していること(材料と設置年代)がわかりづらくなることから「ugly」としています。実際、この図のなかではやはり(still)二度数えをしており、示された値を合計すると212になります(対象の橋の数106を2倍にした値)。
ふたつめの案です。
ひとつめの分類グループに沿ってスライスしたのち、そのスライスをさらにふたつめの分類グループに沿って分割します。スライスをさらにスライスすることで、通常の円グラフを描くことができます。さらに、ネスト化された性質を示すため、緑系統、オレンジ系統、青系統に分けたカラーリングとしており、色が濃いほど、直近の設置年代であることを表しています。ネスト化されたカラースケールを使うことで、データの主変数と第二変数による分類を可視化することができます。
色の濃さで設置年代の分類を見極めるのは厳しい気もするので、感覚的に最近なのかどうかを示すためのものな印象
ただ、同等のツリーマップと比較すると、ツリーマップのほうが望ましいように思います。ひとつは、四角のほうが円よりも紙面の有効利用ができるのと、もうひとつは、円グラフにおいて各スライスが細すぎて見づらいためです。特に、ひとつめは、内部に各要素を説明するラベルを記載できることにつながります。外側にラベルを書くよりも、内側に書く方がわかりやすくなるため、この点は重要です。
前述のツリーマップにて、わざわざ文字を内部に書いていた理由が、ここまで読んでわかったような
11.4 Parallel sets
ふたつを超えた分類グループを扱うとき、これまでの手法ではすぐに見た目が忙しくなってしまうでしょう。そんなときに、パラレルセットが有力な選択肢になります。
下図では、「材料」「全長」「設置年代」「どの川に架けられたか(Allegheny、Monongahela、Ohio)」の4つの分類グループを表しています。図内のバンド(帯)は、材料ごとに色分けしています。
ここから見て取れることは例えば、
- 木材でできた橋は、ほとんどが中程度の長さで、主にcrafts年代に設置され、かつ主にアレゲーニー川に架かっている
- 鉄でできた橋は、すべてが中程度の長さで、主にcrafts年代に設置され、かつアレゲーニー川とモノンガヒーラ川におおよそ同じ比率に分かれて架かっている
バンドの色分けを、材料ごとではなく、どの川に架かっているかを基準にすると、見た目はおおきく変わります。しかし、この図は、バンドの交差が多く、忙しい見た目になっているが、それぞれの川に架かっている橋は、ほぼどのタイプの橋も含まれていそうなことは見てとれます。しかし、過度に複雑でわかりづらいことと、右から左に読むことが必要なことから「ugly」としています。
カラーリングを決めるときに、左から右に読めるようにすることで、カラーリングの開始部分および、どのようにそれが流れていくかが見やすくなります(うえの例だと一番左の材料のところですでに様々な色に分かれているのが、したの例だと色分けが川ごとになっていることに気づきやすい)。
また、(分類グループを並べる順番は任意に変えても問題ないので)バンドの交差が少なくなるように分類グループの順番を工夫することも良いアイデアです。これらに従うと以下の描画に辿り着きます。これはうえの例よりも望ましいと思われます。
(まとめ終わり)