間違いなくデータは嘘をつかない
皆さんは統計局が実施している「家計調査」をご存知でしょうか?よく「平均」の誤った使い方の揶揄として挙げられるものなので、統計関係の入門書などに目を通したことがある方は一度は聞いた内容だと思います。
2018年の家計調査によると、「二人以上の世帯」における平均貯蓄残高の平均は..
1,752万円
だそうです。
総務省統計局ー家計調査報告2018年より(https://www.stat.go.jp/data/sav/sokuhou/nen/index.html)
これをみて多くの方は「中央値」で話せよ、と思うでしょう。現にかなり前から統計局は中央値を同資料に記載しています。ちなみに中央値の場合は1,036万円らしいですが、まだまだ現実との乖離があると思いませんか?
なので最近は「格差社会」という前提で、「最頻値」というものを用いて「5世帯に1世帯は貯蓄が200万円に満たないんです!」なんて言ってたりします。
さて、では上記の「平均値」、「中央値」、「最頻値」の中で正しいものはどれなのでしょうか?
分析や集計、グラフ化には誰かの意図が紛れ込んでいる
上記は少し極端でシンプルな例ではありますが、どれもデータに基づいた正しい値ですし、シーンによって使い分ければどの数値も大きく意味のあるものです。問題は情報を伝える側が、「伝える内容を取捨選択できる」ことにあります。
データという事実が絵の具であれば、分析した内容は分析者の一つの作品です。
「〜〜という仮設のもと、この値を分析してみよう」
「データの推移がよりわかりやすくするようにグラフにしてみよう」
と考えている時点で、分析者の頭には、ある程度見せたい内容が描かれています。
それは悪いこと?
もちろん悪意のある捏造じみた内容や、「報道しない自由の行使」などは悪いといえるでしょう。
しかしながら分析自体に意図があるのは当然のことで、むしろ仮設や肌感覚を、数字の力で明文化する最強のビジネスメソッドだと思います。
寒くなってきたからおでんが売れるだろう、と在庫を多めに用意しておきたい。けど店長が無駄なことはしなくていいと言ってきたら、気温とおでんの売上金額の相関係数を突き出してやればいいのです。
一言で済む話なのですが、あえて最後にもってきました。
分析資料を読み解く上で気をつけないといけないことは、誰がどういう意図で分析したのか?
あとは、きれいなグラフに心を奪われないブレない心も。