私調べ
「いつか勉強したいけど難しそう」
「やらなきゃいけないってわかってるけど数式がキツい」
学問No.1である統計学。
一念発起、チャレンジしたら4日でざっくり入門できたので、それを手助けしてくれた2冊の本を紹介したいと思います。
はじめに
- ビッグデータ
- データサイエンス
- ディープラーニング
- etc...
もはや流行どころか当たり前のものになってきたワードですが、いずれも勉強しようとすると壁が感じがちです。
そう、「数学」です。
特に
- 統計学
- 微積分
- 線形代数
この辺りは大学で学ぶのが一般的であり、大学で履修していない人にとって独習はかなり負担が大きいものでしょう。
しかしエンジニアとして仕事をしていれば企画さんやPMから
「施策の効果には有意に差が〜」
などと見聞きすることもありますよね?
これはまさに統計学の範疇です。
また、2014年に書籍「統計学が最強の学問である」がビジネス書大賞で経済書部門での大賞を受賞1したあたりから、統計はビジネスマンにとっても大きな力となり得る学問であり、教養として捉えられるようになったきらいがあります。
私自信、理系の大学院を出たものの、統計学を履修することなく終えてしまい、ある種のコンプレックスとなっていました。
今回たまたま仕事の中で挑戦したい目標ができたこともあり、一念発起、統計に再入門することにしました。
統計を学ぶ上でのつまづきポイントは?
統計学は大まかに分けて「記述統計」と「推測統計」に分かれます。
収集したデータから特徴を抜き出す「記述統計」はヒストグラムや平均値を扱うという意味で馴染みが深い部分です。
一方、「推測統計」は統計学の手法と確率理論をミックスすることで「過去のデータから未来の事柄を予測する」ことや「部分から全体を推測する」ことを可能にする学問です。2
選挙で開票率数%で「当選確実」が出せるのは推測統計の力ですし、株価の予測、温暖化予想などに用いられているのも推測統計ですね。
ただ確率が絡むポイントが厄介で、この単元から脱落者が出るイメージがあります。
私が院試で独学したときに放り投げたのも微積分の式と確率の記号がコラボレーションし始めた辺りでした…
ここでつまづかせずに統計学のエッセンスを学ばせてくれる書籍に出会ったので紹介します。
の2冊です。
完全独習 統計学入門
この本はなんと、確率の話がほとんど出てきません!中学数学の範囲で済みます!一次不等式と√だけ!
統計学の本質をしっかり理解させるために、一定の誤魔化しを加えることで確率の話を出さずに
- マーケティング調査のデータ分析
- 金融商品のリスク・リターン
- 選挙の出口調査
などを例にして統計を教えてくれます。
更に、各章で穴埋め式練習問題があることで、学んだものをすぐに手で計算して理解させてくれます。大変素晴らしい。
学問ではなくビジネスのツールとして統計を使う際には大抵Excelなどの便利なアイテムを駆使していると思います。
つまり重要なのは統計を学問として深く理解することではなく、
- 使う検定の意味を理解しているか
- 必要なデータが何であるか
- 正しく結果を読み取って意思決定に活かすことができるか
というポイントになります。
統計初心者ながら、その点においてこの本は最適な選択肢の一つであると愚考します。
更に機械学習などを見据えて深く学ぶモチベーションがある人にとっても「赤本」と有名な東大出版会の「統計学入門」に挑戦する前に概念として統計学を把握するためにも秀逸な一冊だと思います。
あまりにわかりやすく続きが気になってしまったこともあり、週末の2日で読み切れてしまいました。
完全独習 ベイズ統計学入門
「完全独習 統計学入門」があまりに良い体験だったのでシリーズとして刊行されていたこちらも購入してしまいました。
数年でよく耳にするようになった「ベイズ統計学」ですが、先進的なIT企業のサービスには必ずと言っても活用されている学問です。
マイクロソフトがベイズ統計学をビジネス活用していることは有名です。
ビル・ゲイツが2001年の基調講演で
- 「21世紀のマイクロソフトの戦略はベイズ統計であること」
- 「世界中からベイズ統計の研究者をヘッドハンティングしたこと」
を公言したことはベイズ統計学を紹介する場では頻出のエピソードです。
2000年前後からベイズ統計学の流行が始まり、今日にまで利活用されるようになっています。
Google検索の予測変換システムや、ECサイトの顧客の購買行動や検索行動から顧客のタイプを推定したり、迷惑メール判定ロジックなど挙げればキリがありません。
最近では、機械学習に組み込むことで、より精度の高いAIが出来るようになってきています。
書籍の中から引用しますが
ベイズ統計の強みは、データが少なくても推測ができ、データが多くなるほど正確になる」という性質と、「入ってくる情報に瞬時に反応して、自動的に推測をアップデートする」という学習機能にあります。これを知れば誰もが、先端のビジネスに最適、と納得することでしょう。 (p6 0-3より)
こちらの書籍は「完全独習 統計学入門」のシリーズのような位置づけですが前作を踏襲して書籍紹介には
「確率」どころか「ルート」などの中学数学を忘れても理解できるよう徹底的にやさしく解説。IT業界の人や統計学に興味がある人はもちろん、すべてのビジネスパーソン必見の一冊。
とあります。
実際、わかりやすく言葉を尽くして図をふんだんに活用した説明のおかげで思想的背景から数式に含まれるイメージまで理解することが出来ました。
ほぼ四則演算で完結されてた印象です。
更に前作同様、各章で穴埋め式練習問題があることで、学んだものをすぐに手で計算して理解させてくれます。
- 迷惑メールの判定の計算
- がん検診の陽性って実際何%が陽性?
など生活に紐づく題材で計算していくことで、今までなんとなく消化していた数字に対する解像度が跳ね上がりました。
こちらは「完全独習 統計学入門」の2週間後に読みましたが、同じく土日2日で最後までたどり着きました。
まとめと念押し
以上2冊合わせて4日で統計学コンプレックスを一旦解消し、「なんとなくエッセンスはわかった気がする!」になれた私の書籍に対する感謝文でした。
いずれの書籍にも巻末に学びを深めたい人向けの次の書籍のオススメも紹介されていますので、業務でガッツリ統計を活かせるビジネスマン・エンジニアの方はここから進むも良し。
「施策の効果測定の結果の意味を正しく理解したい」ぐらいであればこの2冊で十分かも知れません。
私は早速しっかり数式もびっしりな統計学の書籍に手をつけ始めましたが、イメージがしっかり持てているせいか、昔挫折したときに比べてスラスラ進めています。
数字に騙されない、数字を以て正しい分析をするためには統計学は絶対に欠かせません。
ビジネスマンとして、エンジニアとして、一人の大人として客観的な分析力をつけて行きましょう。
「麻雀はゲーム理論で詰めるの難しそうだし、やっぱ統計的アプローチだよな〜」が私のモチベーションの4割占めてるのは秘密です。
-
まあまあな意訳であることは勘弁して頂きたい… ↩