データ分析と統計処理の基本的な手順の整理 (5) #statistics

前回まで分布の把握、区間推定と進めてきました。ここから先は複数の変量に相関があるかを調べていくわけですが、手順の整理なので細かい話は各記事に譲るとして、大まかな説明をしてきます。

推測統計

統計の手法には多く分けて二つあります。記述統計と推測統計です。記述統計とは、データを大まかに要約し、図表などで可視化しようというものです。これは最も古くからある統計の利用方法です。記述統計による考え方というのには大きな制約があります。そもそも全データが明らかであることを前提に、そのすべてを詳細に見ることができないので要約して可視化しようというものだからです。

わたしたちが観察することのできるデータは全体のごく一部ということがほとんどですから、そこで推測統計の考え方が必要になります。そのために分布を把握し、ありそうな値の範囲を推定するということをしたわけです。これが推測統計と呼ばれるものです。以前にモンティ・ホール問題でちらっと触れたベイズ統計学も、基本的にはこの推測統計の類になります。

回帰分析

多くの人がデータ分析に期待する効果として、データとデータの関係性を発見し、その関係にもとづいた予測をしたいといったことでしょう。たとえば今設備投資をしているとしてその設備がもたらす売上やコスト、品質への影響などを知りたいといったビジネス上の課題。また社会的な話題がどのように集客に影響しているかといった動向調査などです。

これらの関係性や影響の度合いが直接観察できるのはきわめて稀です。現実のデータにはさまざまなノイズが混入しています。たとえばゲームのように 1 日 2 時間勉強をしたから知能ポイントが 2 ポイント上昇！なんて簡単にはいきません。現実の問題はとても入り組んでおり、膨大な不確実性の中から自分の知りたい関係を発掘しなければなりません。

そのためのひとつの手がかりが回帰分析です。これは変数間の関係性の強弱を示す相関係数や、変数間の数量的な関係を推計します。

散布図を描く

散布図の描き方そのものはすでに書きましたからそちらを参照してください。

散布図の効能として、一見関係の無さそうな変数の間に意外な関係性があることがわかることがあります。またこの二つの変数の関係を数値で示す統計量が相関係数です。

回帰式

回帰分析は、ある変数 (被説明変数) を他の変数 (説明変数) でどのようにどれくらい説明できるかを探索する手法です。そしてそれは回帰式で表されます。回帰式とはたとえば次のようなものです。

Y = 13.5X - 39.5

このとき Y が被説明変数、 X が説明変数、また X = 0 だったときの Y の値が定数項、 X の Y への影響力を示す 13.5 を X の回帰系数と呼びます。

このように回帰式を用いると、ならば X がいくつのときに Y がいくつか、といったことを予測できます。

回帰式は説明変数の説明を、ノイズがたくさんある中から柱になる関係性だけを導いたものです。このときどれくらい説明できているかを表す基準が決定係数です。たとえば決定係数が 0.45 なら回帰式で説明変数の動きの 45% が説明できていることになります。

標準誤差と t 値

区間推定で、サンプルの平均から標準誤差の 2 倍離れた区間を求めましたが、これと同じく回帰式で 95% 正しい区間予測を求めるのにも標準誤差を利用します。

推測統計では、母集団の一部を抽出したサンプルをもとに分析をします。回帰式を導いたデータもほとんどはサンプルにすぎませんから、もしかしたら母集団と大きな差があるかもしれません。推計された定数や係数が、本当は 0 なのにも関わらずサンプルで出現した値かもしれないということを示すのが t 値です。

t 値の絶対値が 2 以上なら「本当は 0 」である確率は 5% 未満であるという判断をします。

重回帰分析

被説明変数を定数項とひとつの説明変数で求めるのを単回帰分析といいます。これに対し、定数項と複数の説明変数で求めるのが重回帰分析です。

実際の分析では、出来る限り説明変数を用いて重回帰分析をおこない、そのうち係数が有意でない変数を見つけたら、それを除いた重回帰分析をまたおこなう、というステップを繰り返しておこないます。

単回帰式では Y と X の直線的な関係を導くことになりますが、重回帰分析ではより複雑な関係や直線以外の回帰式も求めることになります。

回帰分析の手順のまとめ

仮説や経験から、被説明変数と説明変数を決める
サンプルを収集し、説明を試みる
回帰係数が偶然による値ではないことを (t 値から) 確かめる
回帰式を使った 95% 信頼区間の予想では、誤差がありうることに留意する

t 値と標準誤差が掲載されていない回帰式はその分析の信頼性がわかりません。

回帰分析の注意点

統計による思考は、たとえ相関関係を求めてもそれが因果関係ではない場合もあることに気を付けなければなりません。

因果関係とは「風が吹けば桶屋が儲かる」というもので、相関関係は「風速が強い」「桶屋の売上が高い」ことが同時に観察されるという状況の記述です。つまり、相関関係を引き起こす「共通の要因」を把握しておかないと分析は失敗します。

このための考え方としては
* ある因果関係を仮説として設定して、これを検証するために回帰式と検定を使う
* さまざまな回帰式を推計しそこから、これらの相関関係を生み出す因果関係は何かを考える
というふうに統計を利用していくということが挙げられます。

統計は目的なく何かを導くものではなく、上記のように目的を明らかにして利用するものだということです。

まとめ

駆け足でしたがデータ分析と統計の基本的な手順の整理についてはこれでおしまいです。いかに統計的に正しく高度な分析手法を利用しても、その役立て方をまちがえては失敗しますので、道具を正しく使うための思考をよく理解しましょう。