19
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

いえらぶAdvent Calendar 2019

Day 17

10年前に覚えた統計学・多変量解析の知識を思い出す

Last updated at Posted at 2019-12-17

何書くか考えていたとき

情報扱えば色んなデータがたまって、色んな分析ができると思います。これをやっているとこういう傾向あるんじゃないか、そして色んな人からアドバイスもらって、関係ある→より情報を深掘りする、関係なかった→じゃあこっちはどうだ、なんて。

今年、吉祥寺の肉山で友人と肉食べて飲んでいるとき、その内の1人がデータサイエンティストやっていました。社内の人間は、業界のこと、自社のこと、クライアントのこと、関連ありそうなデータ、それは勿論知ってます。ただし、データサイエンティストは知りません。

今、社内のデータをデータサイエンティストが分析したらどうなるのか。ただそこにあるデータを分析するのみ。その方が分析したら、今まで自分達が見向きもしなかったところで相関あるデータが見つかって、新たな戦略立てれるんじゃないだろうか。自分達の頭で考えることは勿論大事だけれど、先入観ない目で分析したらどうなるんだろうか。

学生時代にやった統計学・多変量解析、最初はすさまじいアレルギーでした。まずは単位取るためだけにやって、その後研究とかでもやらざるを得なくて、ちょこちょこ触れて。そのうちこんなことがができるんだすげー、って思うようになって。そこで自分が約10年前に覚えた統計学・多変量解析を、思考整理のために書いてみようかなと。統計学詳しい人からすれば、当たり前で初歩的で色々ツッコミどころあると思います。当時統計学アレルギーで思考停止した20歳の頃の自分に向けて、これを知っていたらイメージわくよ、っていうのを、投稿しようと思います。

(重)回帰分析

どんな統計学・多変量解析の書籍でも、どんなサイトでも紹介されていると思います。どのようなことができるのかがわかれば面白いのですが、統計学・多変量解析の授業ではいきなり数式を見せられて思考停止、ただ単位取る為だけの時間・作業になりました。
image.png
Wikipediaより引用

プロ野球選手の年棒を知りたい

そんな僕が、統計学(重回帰)すげーなと思うときが来ました。その時の課題が、プロ野球選手の年棒を推定しよう、という内容でした。

  • 50人ぐらいのプロ野球選手の安打数、ホームラン数、打点、盗塁、三振、エラー、失策などの成績と、年棒のサンプルデータがある。
  • 課題は、サンプルデータから重回帰分析を行って、「次の成績を残したとき、年棒はいくらになるでしょう」という内容

プロ野球選手の年棒が、安打数、ホームラン数、打点、盗塁、三振、エラー、失策、などで決まるとする(本当はどうか知りません)。まずは、そのサンプルデータをすべて読み込む。そうすると、どれぐらいの成績を残すと、どれぐらいの年収になるか、と予想ができるようになる。そして、年棒を知りたい選手のデータを読み込むと、大体これぐらいになりますよ、と年棒が推定できる。

このとき、重回帰分析とは何をしてどのようなことができるのか、安打数・ホームラン数等を説明変数、求めたい年棒を目的変数、っていうのを理解しました。

多重共線性(マルチコリニアリティ)

なんだ、簡単じゃんか、と僕から統計アレルギーがなくなりました(授業ではRを使って分析を行いました。他にはSPSSが一般的なのかなと。Excelでやっている人もいました。10年以上前ですが、今も主流みたいですね)。それから大学院へ進んで、グループワークの授業を受講しました。街の道路情報、字丁目の家屋面積などの情報から、街の災害リスクを推測するという分析をしました。そしたら、別の班の方から下記のコメントもらいました。

「これって多重共線性考慮してますか」

何それ、聞いたことねーよって思いました。
image.png
Wikipediaより引用

統計学・多変量解析の書籍を見ても、多重共線性の内容がスっと頭に入ってこない。そのとき、研究室に「Excelでできる多変量解析」とかいう本がありました。そこに書いてあった多重共線の説明が、僕は一番理解しやすかったです。

  • 男女30人の、血圧・年齢のデータを読み込んで、年収を推定する。
  • 血圧⇔年収、年齢⇔年収は相関がある、という結果になった。
  • 年齢が上がれば上がるほど、年収は大きくなるのはイメージと合う。
  • ただ、高血圧な人ほど年収が高い、っていうのが少し違和感がある。
  • 血圧⇔年齢にも相関があるため、血圧⇔年齢⇔年収となって、血圧⇔年収にも相関が出た。

この疑似の相関が発生すると、正しくデータ分析ができない。説明変数同士に強い相関があることを、多重共線性(マルチコリニアリティ)という。重回帰分析するまえに、説明変数同士で相関がないことを確認しようね、っていう注意喚起ですね。

数量化理論I類(Ⅱ類、Ⅲ類、Ⅳ類)

名前だけで凄い難しいそうで、食わず嫌いしてました。ただ、重回帰のイメージが持てていると中身は名前ほどゴツくなくて、Wikipediaもほかの統計学関連の記事にと比べると、読みやすかったです。
image.png
Wikipediaより引用

これも、研究室に置いてあった「Excelでできる多変量解析」とかいう本の例がわかりやすかったです。

  • ドラッグストアで、洗濯洗剤の来月の売上高を予測したい
  • 洗濯洗剤となると、料金・在庫、とかだけではなく、液体か固形か、香りあり・なしか、など数値で扱うことのできない情報が必要になる。
  • 数値で扱うことのない情報をコードなどで置き換えて解析を行うことを、数量化理論という。手法によって、I類~Ⅳ類に分類される。

クラスター分析

データ分析を行うとき、仮定・手法は勿論大事ですが、まずは一旦簡単な結果でも良いから見てみたい、なんてときがあると思います。そのときに僕が良く使っていたのがクラスター分析でした。
image.png
南山大学 理工学部システム数理学科 クラスター分析より引用

この樹形図をデンドログラム、デンドログラムっていう言葉の語呂が理由もなく好きでした。クラスター分析による分類方法が幾つかあるので、手法もサンプルデータの選び方も重要です。ただ、このデータにどのような傾向があるのかをまず知りたい、っていうときに、視覚的でわかりやすいため、クラスター分析を行ってデンドログラムを見比べたりしていました。

学生時代の夏ゼミで、各都道府県の年間の国体成績のデータを使って、読み込んで、1都1道2府43県を、優勝候補が属するクラスタ、などに分類して、そこから別の分析に派生させていました。

一旦まとめ

思ったより長くなったので、一旦この辺で締めます。

自分の記憶を頼りに書いていきましたが、以外と覚えていました。ほぼ学生時代の知識で書いているので、間違った解釈とかあったらコメントもらえると助かります。思い出しながら書いていて、今あるデータを分析したい気持ちが高ぶってきました。R、SPSSは今でも主流みたいですね。ただ開発言語のPythonでも分析できるみたいなので、次はPythonでデータ解析をやって、そのときの方法を備忘録として投稿してみようかなと思います。

参考

データ分析基礎知識 │ 株式会社ALBERT

19
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
19
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?