こういうラインチャートを作ってツイートしたりすると、いつも「Y軸に0を含んでない!」と指摘してくる人達がいます。
0から始まっていないので、一部を大げさにして、自分に都合のいいようにデータを見せているだけだ!というわけです。
しかし、結論から言うとラインチャートは0を含んでなくてもオッケーです。
というのもこの「0を含むべき」というのはバーチャートに関してのルールであり、ラインチャートに関するものではありません。このあたりの誤解が「Y軸に0を含んでない!」という批判につながっているのだと思います。
例えば、バーチャートの場合は私達の視覚はそれぞれのバーの長さを比べて、元の値の大きさを比べようとします。
こちらは男女間の平均給料の差を比べたバーチャートです。
このチャートは一見すると、左側の女性の給料が右側の男性の給料よりもずいぶん大きく見えますね。この2つのグループの違いは直感的に2倍ほどにも見えます。
しかし、このチャートのY軸は0ではなく、6100ドルから始まっています。
そこで、この同じチャートを今度はY軸が0から始まるようにしたのが以下です。
すると、女性と男性の給料の差は先程のものに比べてずいぶん小さく見えます。もちろん、この差を大きいとするか小さいとするかは最終的には主観的な判断となりますが、それでも先程のような「差が2倍である」というほどの差はありません。
むしろ1つ目のチャートで見えた「2倍の違い」というのは完全に間違った解釈となります。
私達が複数のバーを比べるとき、無意識のうちにそれらの高さを比べています。なので、バーチャートの場合Y軸に0を含めないと、それはそれぞれのバーの長さを操作してしまうことになってしまうのです。
つまり、本来の値が正しく表現されなくなり、私達の視覚が認識する値と本来の値の間にギャップができてしまうため、その解釈が歪んでしまうのです。
しかしラインチャートの場合は事情が違います。
というのも、ラインチャートの場合私達の視覚が認識しているのは線の高さではなく、線の傾斜です。線が上がっているのか下がっているのか、その傾斜がどれだけ急なのか、または緩やかなのか、といったことです。
例えば、こちらはアメリカでの白人男性の給料水準(薄い青)とアジア人男性の給料水準(濃い青)の2000年から2003年までの推移を表したものです。(週あたりの給料、ドル)
上記のチャートのY軸は350ドルあたりから始まっています。このチャートを見ると、アジア人男性の給料(濃い青)は白人男性の給料(薄い青)に比べて大きく上昇していっているのがわかります。このさいに、私達の視覚が捉えているのは、2つの線の傾斜であってそれらを元に比べています。
それでは次に同じチャートをY軸に0を含む形にしてみました。
このチャートを見ても、アジア人男性の給料は白人男性の給料に比べて上昇していったのがわかります。私達の視覚はこの2つの線の傾斜を比べ、そういう解釈をしたのです。
もちろん今回はY軸が0から始まっているため、先ほどのチャートほど大きく違いが出たようには見えません。しかしこの2つのグループの差が小さいか大きいかというのは主観的な判断であって、どちらか一方だけが正しいというわけではありません。同じりんごを見た2人の人が、1人は赤い、もう1人は淡い赤だと思うのといっしょです。
私達の視覚は、それぞれのラインの「高さ」を見て比べているのではなく、2つのラインの傾斜もしくは方向を見て比べているのです。そしてこの傾斜と元の値の関係は絶対的なものではないため、傾斜そのものを見て、その違いが何倍だというような解釈にはなりません。そうした傾斜の違いは相対的により大きいのかより小さいのかという解釈になるのです。
ここでもう1つの例を見てみましょう。
以下のチャートはアメリカのフロリダ州とカリフォルニア州における麻薬過剰摂取による死亡者数を2018年1月の値(チャートの横軸における一番左側にある値)からの変化率で表したものです。
2020年の5月くらいまでは2つの州は同じような傾向だったのですが、それ以降トレンドが変わるのがわかります。フロリダ(オレンジ)はその後停滞もしくは減少傾向にあります。
それに対してカリフォルニア(青)は上昇傾向にあるのがわかります。
上記のチャートはY軸に0を含んだものでした。
今度は逆に、Y軸が0で始まらないように作ってみました。
このチャートはY軸は80(80%)くらいから始まっていますが、それでもほとんどの人は同じ傾向をつかむでしょう。それは元々同じ傾向だった2つの州は2020年5月頃以降に傾向が変わった、というものです。
もちろんY軸に0を含まない2番目のチャートの方が1番目のチャートに比べて、2020年5月以降の2つの州の違いをより大きなものとして表しています。しかしそれは間違いではありません。というのはこの違いの大きさを解釈するのは主観的で、相対的なものであるからです。
Y軸の目盛りを見れば、最終的にカリフォルニア(青)は2018年1月比で120%の増加、フロリダは40%ほどの増加です。この違いは大きいでしょうか、小さいでしょうか?
私は大きな違いで、それは特別な注意が払われるべきものだと思います。
そうであれば、Y軸に0を含まない2番目のチャートの方がそうした解釈がより的確に伝わるはずです。これこそがラインチャートを使って可視化するとき、Y軸に0を含むか含まないか決めるときに考えるべきことなのです。
これは私が勝手に自分に都合の良いことを言っているわけではありません。データの可視化には私達の視覚というものを元にした基本的なルールがあります。今回出てきた、例えばバーチャートであればバーの高さ、ラインチャートであればラインの傾斜を見て私達は比べるといったような視覚的な認識を元にしたものです。それを理解すれば自ずと上記で書いたような結論となります。
それでもまだ納得がいかないという人には、こちらのエッセイをおすすめします。
いくつものデータの可視化に関する本を出していて、さらに「Data is beautiful」というデータの可視化のブログサイトを運営しているマイケル・ヨー氏が「Line Chart doesn’t need to start with zero, here’s why. - Link」として最近出したエッセイです。
こちら以下、要訳という形で紹介します。
以下のチャートはNBAバスケットボールの試合における3ポイントシュートの数の割合です。(一般的なシュートは2ポイント、遠くからのシュートに対しては3ポイントが与えられる)
このチャートのY軸は0で始まっていません。21%あたりから始まっています。
これを見ると必ずチャートのY軸が0から始まっていない、とケチを付けてくる人がいます。
そこで、以下のように実際0から始まるようにしてみました。
ラインの傾斜は緩やかになりました。
ところでよく見ると、試合における3ポイントシュートの数の割合は10年ほどの間に22%くらいから40%まで上がっています。つまりその割合はこの10年で2倍ほど上がったのです。これは大きな違いです。
しかし、ラインチャートのY軸を0から始めるようにしたことで、つまりラインの傾斜を緩やかにしたことで、この2倍ほど上がったという事実は何か変わるのでしょうか?
その変化は緩やかに上ったという解釈となるのでしょうか?それとも元のチャートにあるように急激に上がったと捉えるべきなのでしょうか?
その答えは「データの文脈または背景による」が正解です。
NBAバスケットボールの試合をよく見ている人なら、この10年の間に試合中の3ポイントシュートの数が増えたのは知っているはずです。
しかし全くNBAバスケットボールの試合を見たことない人であれば、このデータの文脈も背景もまったくわかりません。そこでこの3ポイントシュート率の変化がどれだけのものなのか、という解釈をこのチャートのみに頼ることになります。
そのさい、この3ポイントシュート率が10年で2倍ほど上がったという事実はどちらのチャートのほうがわかりやすいでしょうか。それは0から始まるか始まらないかといった技術的なことが問題なのではなく、どちらがこの事実を伝えやすく、そして解釈しやすいかが問題となるのです。
X軸はすべて含むべきか
Y軸だけでなく、X軸に関しても文句を言ってくる人たちがいます。データのすべての時期を見せていない、というたぐいのものです。
例えばこれまでに見てきた3ポイントシュート率のチャートのX軸の範囲は2010年から2021年までとなっていました。ところがNBAバスケットボールの最初のシーズンは1947年なので、そこからチャートは始まるべきだ!というのです。
そして、以下がそのチャートです。
歴史的な観点から3ポイントシュート率がどのように変わってきたのかを見たいというのであれば、このチャートはたしかにふさわしいでしょう。
ところが、毎年の変化、またはある特定の年と比べて、過去10年の間に、といった視点から見たいのであれば、すべての歴史上のデータを表すことにはあまり意味がありません。最近の傾向を掴みたいのであれば過去数年のデータを示すだけで十分です。
技術的な手続きにこだわる批判
こうしたY軸に0を含めるべきだとか、X軸はすべてのデータを含んでいるべきだという批判は技術的な手続きにフォーカスしすぎて、本質を見失っています。
ここでほんとうに問題にすべきなのは、このチャートから何がわかるかなのです。
3ポイントシュート率がこの10年で2倍になった。これはこのチャートが0を含んでいようがいまいがわかることです。
0を含んでいれば含んでいないよりもその変化は穏やかだ、というのがわかったからといって何になるのでしょうか。
質問こそがY軸の幅を決める
そもそも同じデータだとしても様々な方法で可視化することができます。
バーチャートの場合、0を含むことなしに比べてしまうと、私達がバーチャートを見たときに無意識のうちに把握する感覚(バーの長さ)を騙すことになってしまいます。しかしそうした特別なケースを除けば、どのような方法で可視化するかは、私達の質問に答えることができている限りどれも正しいのです。
何について知りたいのか、この質問こそがY軸にしろX軸にしろその範囲を決めるのです。
ここで同じデータに対していくつかの質問をしてみます。そしてそれぞれの質問に対して答えるためにより適したラインチャートを見てみましょう。
NBAのバスケットボール選手は頻繁に3ポイントシュートを打つのか?
そんなことはありません。その率は半分にも満ちません。
この場合、X軸は2000年から始まり、Y軸は0から始まるチャートを使いました。
3ポイントシュートは80年代に比べてどう変わったのか?」
かなり使われる割合が増えています。
歴史的な変化を見せたかったので、X軸は1980年から始めています。
Y軸は0から始める必要はありませんでしたが、元々0%に近かったので0から始めています。
3ポイントシュート率は2005年に比べるとどう変わったのか?
3ポイントシュート率は2倍になりました。
X軸は2005年から始めています。
Y軸は、2倍になったという大きな変化を表すために2005年の値に近い20%から始めています。
3ポイントシュート率は過去数年で変わったのか
あまり変わっていません。
歴史的な背景を知っていれば、この数年の間の36%から40%への増加の幅は大した違いとは言えません。そこでこのチャートのY軸は0%から始めています。
以上、要訳終わり。
上記のブログポストの後半で出てきたそれぞれのチャートはY軸またはX軸の範囲が変わっています。しかしどのチャートも間違った事実を伝えてるわけでもなければ、偏った印象操作をしているわけでもありません。ただそれぞれの質問に対して直感的にわかりやすく答えようとしているだけです。
そして、これは何もラインチャートについてだけではありません。他のチャートであっても同じです。バーチャートのようにバーの高さを比べるためには0を含まなければいけないという、おさえておくべき基本的なルールはあります。それは私達の視覚がチャートの中にある視覚の単位(例えばバー、ライン、点、など)によって識別、判断の仕方を無意識のうちに変えるからです。
しかし、そうした基本を押さえた上で、ほんとうに考えなければいけないのは以下のことです。
「質問な何か、そのチャートはその質問に答えるために役立っているか」
ということです。
そして、時には0を含んだほうがいいときもあれば、逆に0を含まないほうがいいときもあるのです。
以上。
データサイエンス・ブートキャンプ・トレーニング
いつも好評のデータサイエンス・ブートキャンプですが、現在6月版への参加の申し込みを受付中です!
データサイエンス、統計の手法、データ分析を1から体系的に学び、ビジネスの現場で使える実践的なスキルを身につけていただくためのトレーニングです。
ビジネスのデータ分析だけでなく、日常生活やキャリア構築にも役立つデータリテラシー、そして「よりよい意思決定」をしていくために必要になるデータをもとにした科学的思考もいっしょに身につけていただけるトレーニングとなっています。
興味のある方は、こちらのリンクより詳細をご確認下さい!