はじめに
今日では我々の手には自由ソフトウェアであるプログラミング言語とその環境があり、数学的な問題も簡単に計算機でシミュレーションするといったことが誰でもできます。
いままでデータ分析や可視化などについて記述してきましたが、あらためて一から分析と統計について整理して書いてみたいと思います。
仮説をたてる
以前にもデータ分析において必要なことを原点に立って考えてみるという内容で分析のシナリオを計画してからそれを進めるためにどういったことが必要とされるか考えてみました。
KPI (key performance indicator) とは「目標を達成するために何が必要かを定量的に表す数値」です。
整形して美人になりたいというのは KPI ではありません。体重を 3 ヶ月後までに 10 キロ減らすとか鼻を 1.5 センチ高くするといったものは KPI です。
このように分析のための手立てを考え、必要なデータの種類を明らかにしてから実際にそのデータを収集します。このとき、データにはどのような種類があり KPI として利用しようとしている指標はどんなデータなのか正しく理解していないと、しばしば無意味なデータ分析へとつながってしまいます。
データの種類に関する理解
たとえばアンケートやカルテに、あなたは性別は何ですか、年齢はいくつですか、と質問があったとします。このとき取る値は大きく次の 2 つに分けられます。
- 離散変数 (discrete variable)
- 連続変数 (continuous variable)
さらに、離散変数は次の 2 つに分けられます。
・順序付け不能な離散変数
(例 性別、国籍、所属している会社)
・順序付け可能な離散変数
(例 成績: 1. 優 2. 良 3. 可 4. 不可)
データの種類や尺度水準に関する説明は以前にも線形回帰の記事で触れました。
あらためて尺度水準について書きましょう。重要な事なので何度でも言います。変数はその性質について次のようにその尺度水準を分類されます。
- 名義尺度
- 順序尺度
- 間隔尺度
- 比例尺度
データを集める
統計学が応用される分野は実に多岐にわたり、どのような統計をするかで必要なデータも異なってきます。とはいえ、利潤を求める多くのビジネス系の民間企業で有用なのは社会統計でしょう。
今日では天候や気象、人口や政府の財政状況などさまざまなデータが、データ形式はともかくとして、かなりのレベルまでオープンになっています。
社会統計学はさまざまな社会現象についてその因果関係を推測統計にて分析します。このプロセスにおいては特に変量間の相関関係を調査したり、あるいは仮説検定をおこなったりします。統計学の基礎で重要かつそれでいて簡単な計算をすることで実践できますから、分析の入門分野としても最適かと思います。
有用なデータソース
たとえば東京都の統計情報は以下のサイトから参照できます。
東京都の統計
http://www.toukei.metro.tokyo.jp/
また総務省統計局には国勢調査や人口、家計、労働力や企業経済、国内外の経済などのさまざまなデータがあります。
総務省統計局
http://www.stat.go.jp/
直接に因果関係を導く可能性はそれほど大きくありませんが、自然や天候に関するデータは気象庁を参照するのが最も確実でしょう。
気象庁 各種データ・資料
http://www.jma.go.jp/jma/menu/menureport.html
他にもさまざまなデータソースが考えられますが、いずれにせよ分析元のデータのソースが明らかで信頼ができること、データソースとしてライセンス上利用可能であることを確認せねばなりません。いくら役に立つからといってデータの出処があやしいものを利用してはいけないということですね。企業と提携してデータを分析する場合には当然その NDA は厳守しなければなりませんし、自社のデータであるならプライバシーの保護やセキュリティには厳重な注意を払わねばなりません。
当たり前ですがとても大切なことです。
ある程度分析に関する入門的知識がそろうと、これらを基に仮説を検証できるかどうかがデータの種類からざっくりと検討がつくことになるかと思います。
分析の練習をする
社会統計学においてはふと思いつくような身近なテーマを題材に、高校生レベルの数学力でもできるデータ分析をおこなうことができます。たとえば
- 地球温暖化が話題だが、東京都の平均気温は実際に上昇してきていると言えるのか
- お盆で多くの人が田舎に帰省したが、地元が東京以外で上京してきている人の割合は増えてきているのか
などなど他にもさまざまなアイデアが考えられます。
まとめ
まずは手始めに概論を復習しました。
次回以降は基本的な統計数理とそのコードをもとに手を動かすところへ入って行きたいと思います。