はじめに
学生の頃グラフをなんとなく使っていましたが、仕事でグラフを使って説明する際にグラフの適切な使い方や見せ方などなかなか思いつかなかったので、よく使うグラフのユースケースや特性をまとめてみました。
筆者の主観が強く入った内容となっているため参考にする際には他の情報と合わせてみるようにしてください。
グラフ
折れ線グラフ
折れ線グラフはデータを線で結んで表示するグラフで、時間経過に伴うデータの変化を見るのに適しています。株価・気温などの変動を視覚化するのに使われ、傾向などがわかりやすくなります。
長期間のデータに適していると個人的に考えています。
気温のデータに関して、近年温暖化が進んでいると言われていますが、その時に100以上前からの気温おデータを折れ線グラフで表示して上昇傾向にあるとよく示されていると思います。10年程度のデータだと一時的な変化の可能性も捨てきれないため、傾向を掴むためにはできるだけ長期的なデータを用意する必要があるかと思います。
棒グラフ
棒グラフは棒の高さでデータの大小を表したグラフで、異なるカテゴリーの数値データを比較するのに適しています。棒グラフは単純なデータの比較に関しては、折れ線グラフよりも視覚的にわかりやすいですが、複数のデータを時系列で表示するとそれぞれの棒が細くなってしまい見にく具なってしまいます。データが複雑になる場合は他のグラフを使うことをお勧めします。
ユースケースとしては、スコアや成績などを可視化するのに適していると考えています。具体的には年齢ごとのスコアを棒グラフで表示することなどが適していると考えています。
散布図
散布図は一つの軸に一つの変数を置き、データの関係を視覚化するのに適しています。各点は二つの変数の値を表しています。
またデータがどのように分布しているかが直感的にわかります。
散布図は変数間の相関を見ることができ、エクセルなどで散布図を作成した場合は近似曲線などを表示することができます。近似曲線は各点を最も近い形で通る曲線のことでこれがわかると散らばったデータの傾向がわかるようになります。
ユースケースは気温とアイスクリームの売り上げの関係のようなものが挙げられると思います。実際に検証したわけではありませんが、気温が上がれば売り上げが良くなる傾向が出るというのは想像できるのではないかと思います。
ただし偽の相関関係には注意が必要です。これは統計的には相関が認められるが実際には因果関係がないまたは相関関係が偶然であると考えられるものを指します。例えばアイスクリームと水難事故の件数の関係です。これは気温の上昇が共通の原因であるが、この二つの関係があるように見えてしまいます。データの選択または結果を見て本当に正しいかを判断する必要があります。
ヒストグラム
ヒストグラムはデータがどのように分布しているかを視覚的にしたグラフで、データがどの値の範囲に集中しているかなどがわかります。
棒状で表示されている各階級のグラフはビンと呼ばれています。
各ビンの高さは、その便に表示されている値の範囲のデータ数を示しており、視覚的にかなりわかりやすくなっています。
またヒストグラムの形状から正規分布か左右が非対称でどこかに集中しているかなど傾向がわかります、
ユースケースは、あるコミュニティの年齢の分布などを表示するのに適しています。そのコミュニティに属している人の年齢の分布や傾向が一目でわかります。
箱ひげ図
箱ひげ図はデータの分布を視覚的にしたグラフで、データの最大値、最小値、中央値、四分位数、外れ値を示すことができます。
四分位数は箱の下の面から第一四分位数、真ん中の線が第二四分位数、箱の上の面が四分位数となっており、それぞれ全体のデータの25%,50%,75%に該当します。
ユースケースは、異なる学校で同じ模試のテスト結果を比較する時などに使用することなどに適しています。それぞれの学校のテスト結果の分布。最高得点者、採点得点者、中央値などが一目で比較できます。
まとめ
このようにグラフにはそれぞれ視覚的にわかることが大きく異なります。
このことから自身が持っているデータや知りたい内容を考えた上でグラフを選択することが重要だと改めて感じました。
今回は自分がよく使ていたグラフを中心にまとめてみましたが、他にもグラフはたくさん存在しています。
機会があれば一度も使ったことのないグラフも使ってみて紹介できればと思います。