何書くか考えていたとき
情報扱えば色んなデータがたまって、色んな分析ができると思います。これをやっているとこういう傾向あるんじゃないか、そして色んな人からアドバイスもらって、関係ある→より情報を深掘りする、関係なかった→じゃあこっちはどうだ、なんて。
今年、吉祥寺の肉山で友人と肉食べて飲んでいるとき、その内の1人がデータサイエンティストやっていました。社内の人間は、業界のこと、自社のこと、クライアントのこと、関連ありそうなデータ、それは勿論知ってます。ただし、データサイエンティストは知りません。
今、社内のデータをデータサイエンティストが分析したらどうなるのか。ただそこにあるデータを分析するのみ。その方が分析したら、今まで自分達が見向きもしなかったところで相関あるデータが見つかって、新たな戦略立てれるんじゃないだろうか。自分達の頭で考えることは勿論大事だけれど、先入観ない目で分析したらどうなるんだろうか。
学生時代にやった統計学・多変量解析、最初はすさまじいアレルギーでした。まずは単位取るためだけにやって、その後研究とかでもやらざるを得なくて、ちょこちょこ触れて。そのうちこんなことがができるんだすげー、って思うようになって。そこで自分が約10年前に覚えた統計学・多変量解析を、思考整理のために書いてみようかなと。統計学詳しい人からすれば、当たり前で初歩的で色々ツッコミどころあると思います。当時統計学アレルギーで思考停止した20歳の頃の自分に向けて、これを知っていたらイメージわくよ、っていうのを、投稿しようと思います。
(重)回帰分析
どんな統計学・多変量解析の書籍でも、どんなサイトでも紹介されていると思います。どのようなことができるのかがわかれば面白いのですが、統計学・多変量解析の授業ではいきなり数式を見せられて思考停止、ただ単位取る為だけの時間・作業になりました。
Wikipediaより引用
プロ野球選手の年棒を知りたい
そんな僕が、統計学(重回帰)すげーなと思うときが来ました。その時の課題が、プロ野球選手の年棒を推定しよう、という内容でした。
- 50人ぐらいのプロ野球選手の安打数、ホームラン数、打点、盗塁、三振、エラー、失策などの成績と、年棒のサンプルデータがある。
- 課題は、サンプルデータから重回帰分析を行って、「次の成績を残したとき、年棒はいくらになるでしょう」という内容
プロ野球選手の年棒が、安打数、ホームラン数、打点、盗塁、三振、エラー、失策、などで決まるとする(本当はどうか知りません)。まずは、そのサンプルデータをすべて読み込む。そうすると、どれぐらいの成績を残すと、どれぐらいの年収になるか、と予想ができるようになる。そして、年棒を知りたい選手のデータを読み込むと、大体これぐらいになりますよ、と年棒が推定できる。
このとき、重回帰分析とは何をしてどのようなことができるのか、安打数・ホームラン数等を説明変数、求めたい年棒を目的変数、っていうのを理解しました。
多重共線性(マルチコリニアリティ)
なんだ、簡単じゃんか、と僕から統計アレルギーがなくなりました(授業ではRを使って分析を行いました。他にはSPSSが一般的なのかなと。Excelでやっている人もいました。10年以上前ですが、今も主流みたいですね)。それから大学院へ進んで、グループワークの授業を受講しました。街の道路情報、字丁目の家屋面積などの情報から、街の災害リスクを推測するという分析をしました。そしたら、別の班の方から下記のコメントもらいました。
「これって多重共線性考慮してますか」
何それ、聞いたことねーよって思いました。
Wikipediaより引用
統計学・多変量解析の書籍を見ても、多重共線性の内容がスっと頭に入ってこない。そのとき、研究室に「Excelでできる多変量解析」とかいう本がありました。そこに書いてあった多重共線の説明が、僕は一番理解しやすかったです。
- 男女30人の、血圧・年齢のデータを読み込んで、年収を推定する。
- 血圧⇔年収、年齢⇔年収は相関がある、という結果になった。
- 年齢が上がれば上がるほど、年収は大きくなるのはイメージと合う。
- ただ、高血圧な人ほど年収が高い、っていうのが少し違和感がある。
- 血圧⇔年齢にも相関があるため、血圧⇔年齢⇔年収となって、血圧⇔年収にも相関が出た。
この疑似の相関が発生すると、正しくデータ分析ができない。説明変数同士に強い相関があることを、多重共線性(マルチコリニアリティ)という。重回帰分析するまえに、説明変数同士で相関がないことを確認しようね、っていう注意喚起ですね。
数量化理論I類(Ⅱ類、Ⅲ類、Ⅳ類)
名前だけで凄い難しいそうで、食わず嫌いしてました。ただ、重回帰のイメージが持てていると中身は名前ほどゴツくなくて、Wikipediaもほかの統計学関連の記事にと比べると、読みやすかったです。
Wikipediaより引用
これも、研究室に置いてあった「Excelでできる多変量解析」とかいう本の例がわかりやすかったです。
- ドラッグストアで、洗濯洗剤の来月の売上高を予測したい
- 洗濯洗剤となると、料金・在庫、とかだけではなく、液体か固形か、香りあり・なしか、など数値で扱うことのできない情報が必要になる。
- 数値で扱うことのない情報をコードなどで置き換えて解析を行うことを、数量化理論という。手法によって、I類~Ⅳ類に分類される。
クラスター分析
データ分析を行うとき、仮定・手法は勿論大事ですが、まずは一旦簡単な結果でも良いから見てみたい、なんてときがあると思います。そのときに僕が良く使っていたのがクラスター分析でした。
南山大学 理工学部システム数理学科 クラスター分析より引用
この樹形図をデンドログラム、デンドログラムっていう言葉の語呂が理由もなく好きでした。クラスター分析による分類方法が幾つかあるので、手法もサンプルデータの選び方も重要です。ただ、このデータにどのような傾向があるのかをまず知りたい、っていうときに、視覚的でわかりやすいため、クラスター分析を行ってデンドログラムを見比べたりしていました。
学生時代の夏ゼミで、各都道府県の年間の国体成績のデータを使って、読み込んで、1都1道2府43県を、優勝候補が属するクラスタ、などに分類して、そこから別の分析に派生させていました。
一旦まとめ
思ったより長くなったので、一旦この辺で締めます。
自分の記憶を頼りに書いていきましたが、以外と覚えていました。ほぼ学生時代の知識で書いているので、間違った解釈とかあったらコメントもらえると助かります。思い出しながら書いていて、今あるデータを分析したい気持ちが高ぶってきました。R、SPSSは今でも主流みたいですね。ただ開発言語のPythonでも分析できるみたいなので、次はPythonでデータ解析をやって、そのときの方法を備忘録として投稿してみようかなと思います。