統計学の代表的な手法について、人気書籍「統計学が最強の学問である実践編」に掲載されている一般化線形モデルをまとめた一枚の表を最初に掲げひとつひとつ多変量解析の手法を追ってきました。今回は実際のデータを分析していくにあたり留意すべき事項をまとめます。このあたり上記書籍からの引用抜粋を含みます。
ビジネスにおける分析の手順
今まで説明したとおり
- 量的なアウトカムに対しては重回帰分析
- 質的なアウトカムに対してはロジスティック回帰
をおこなうことでどんなアウトカムと説明変数の関係性も分析できるようになります。
手法や指標の意味がわかったあとでも、実際に使いこなそうとすると難しいところがいくつかあり、その代表的なものは「どの説明変数をいくつ使えば良いか」というインプット、「出てきた結果変数からどういう意味を読み取りどう解釈してどうアクションを取るか」というアウトプットの二大側面に整理できます。
まずはインプットからです。
オーバーフィッティング (過学習)
過剰適合とも言います。機械学習の分野でも頻繁に登場する言葉です。意味のある説明変数だけでモデルを構築すべきところ、変数が多すぎたりモデルが複雑で自由度が高すぎるとモデルにアウトカムが当てはまりすぎてしまうという問題がおこります。機械学習の分野では訓練データセットのパターンを拾いすぎてしまい、真のモデルから遠ざかってしまうといった問題です。
これの対策として意味のある説明変数だけを回帰式に含むようにしよう変数選択法 (ステップワイズ法、クロスバリデーション法など) を用います。適切なモデルを選択するために、誤差関数に正則化項を追加して過学習を防ぐのですがこれを正則化と言います。
このとき用いられる指標としては、線形回帰なら AIC (赤池情報量基準) 、モデルの推定に最尤推定を用いるなら BIC (ベイズ情報量基準) などの例があります。
なんにせよ、より良い一般化となっているようにしなければなりません。
多重共線性 (通称・マルチコ)
多重共線性 (multicolinearity) は重回帰分析などをする際に、説明変数に似たような変数が入っておりその変数同士の相関関係が強い場合、分析結果があまり信用できなかったり意味の分からない結果になってしまう問題です。多重共線性が発生すると、本来有意でない説明変数が有意となってしまったり、他の説明変数の係数の符号が逆転してしまったりということが起こります。
これを防ぐためには目的変数との関係性をみて特に見てみたいものを 1 つ残して他の説明変数を除去するといった方法があります。このような取捨選択は分析者の主観でおこなわれる部分であり、腕前が問われるところと言えるかもしれません。
「統計学が最強の学問である」によると、因子分析やクラスター分析で量的・質的な情報を縮約することで解決の足がかりとなる、またこれらは重回帰分析・ロジスティック回帰との併用がオススメであるとしています。
アウトプットをどうしたらよいのか
次にアウトプット。分析結果からどのように意味を読み取り、どう解釈してどうアクションするかという話です。
回帰係数の値だけでは説明変数の重要性を判断できません。どれくらい説明変数を動かせる余地があり、またどれくらい実際に動かしようがあるか、といったことを考えなければなりません。
交互作用 (intercation) とは、ある説明変数が目的変数に与える効果が、他の説明変数がどんな値をとるかによって異なることです。 R では pequod パッケージを利用することで重回帰分析で交互作用を検討することができます。変化をつけやすい説明変数と、顧客の属性のように変化をつけにくい説明変数の交互作用を検討するといったことをします。
手順としては
- 回帰分析で重要そうな説明変数にあたりをつける
- ランダム化比較実験によって実証試験をする
- 効果が実証できたのならできるだけ速く全面的に実施をする
となります。
以下は書籍 p348 ビジネスの現場で分析手法を使う手順の図の引用です。
重回帰分析・ロジスティック回帰で変数の関連性を分析
↓
結果の解釈 → 必要に応じて因子分析・クラスター分析で縮約 ↑
↓
A/B テストの検証を t 検定や z 検定で
ここから先はいかに分析の効果をビジネスに適用していくかという話になります。
ここで一冊良書を紹介いたします。
会社を変える分析の力 (講談社現代新書)
http://www.amazon.co.jp/dp/B00ENC7ON2
実際の現場で分析力をどのように活かしていくかというヒントになるかと思います。
まとめ
統計学の王道ともいえる代表的な手法を「統計学が最強の学問である」の内容をもとに追ってみました。
ここまで一通り流れを理解すれば、あとは実際のデータの分析にあたりこれらの手法を使いこなしつつ様々な問題を解決していけば良いかと思います。