はじめに
大学で2年間、社会人として1年間、「データ」という世界で生きてみて、気づいた事を呟く記事です。今回は1年間やってみて「可視化」の重要さを思い知ったので、可視化について語りたいと思います。前半では、可視化の手法に触れ、後半では、「解釈する可視化」と「伝える可視化」の違いについて触れたいと思います。
可視化とは
まず、なぜ可視化をするかから説明したいと思います。人間の脳は一度に多くの情報を処理する事ができません。なので、図やグラフにして視覚的にデータの全貌を把握する方法を思いついたのだと思います。
例えば、ある駄菓子屋さんAの1月の売り上げを表す、数字の羅列をみてもいまいちピンときません。
可視化すると、ひと目でデータの概要が掴めます。
データの可視化は、データを集めたら、まず始めに行うべき事です。
可視化の種類
可視化には様々な手法があり、それぞれ特徴があります。ここではいくつか紹介しましょう!
ヒストグラム
連続する数値(数)データの分布を知るために使われます。以下のデータは、過去作に登場したポケモン800種のHP(体力)をヒストグラムにした物です。これを見ると、50~80ポイントが全体の大半を占めています。(250ポイントもあるポケモンがいることもわかります!)
箱ひげプロット
ヒストグラムと似たもので、箱ひげプロットというものもあります。影がついている箱の中に全体の50%のデータが、横から伸びている髭の中に上下約25%づつのデータが入っています。漏れてしまっている点は「外れ値」と呼ばれます。IQRというデータの散らばりを示す値により、弾かれる仕組みになっています。
棒グラフ
棒グラフはカテゴリーデータの分析によく使われます。以下の棒グラフはタイプの頻度のグラフです。「水」と「ノーマル」タイプのポケモンが多いのですね!また、全体を100%として、円グラフでみてみるのもいいかもしれません。
「色」について
可視化において、配色はとても重要です、無意味な配色は逆効果になってしまう事があります。
例えば以下の円グラフはポケモンの能力の総数を百の位で区切ったときの割合を表しています。この場合、色付けしてるクラスが連続の数字(強さの総数)であるにも関わらす、カラフルないろが付けられています。
色付けしてるクラスが連続(数字)の場合は、グラデーションを使うことで、より直感的に理解できる色彩になります。
可視化は分析結果ではない
この記事で一番伝えたい事なのですが、データを可視化しただけの物をアウトプットとしている方を目にします。自分がデータを解釈するために使った可視化をそのままアウトプットにすることは好ましくない事が多いです。データ解釈の為の可視化は自分が分析で使うもので、分析結果を報告する際には使わない事が多いです。データ分析では、以下の流れで、計2回の可視化を行います。
データを可視化 → 考察・検証 → メッセージ → メッセージを可視化
1グラフ1メッセージ
可視化で得た情報をもとに自分なりにデータを解釈し、伝えたいメッセージを分かりやすい様にグラフに可視化します。
例えば、上記の売り上げの例を挙げると、「土日祝日の売り上げが上がっている」事が分かります。しかし、このままアウトプットしても、聞き手には伝わりません。配色を変え、土日祝日のデータを目立たせる事で、伝わるアウトプットをする事ができます。この時、伝えたいメッセージが1つ以上あったとしても、1つのグラフに1つのメッセージを載せる事をオススメします。
分析用データ(データを可視化)
見せたいデータ(メッセージを可視化)
おわりに
今回は「可視化」についてまとめてみました。「解釈する可視化」と「伝える可視化」では、データの表情が少し違う事が伝われば幸いです。
データセットはこちら。