Edited at

氷解!データ分析、機械学習手法ってたくさんあるけどいつどれを使えばよいのか

More than 3 years have passed since last update.


データ分析・機械学習の代表的な手法には何があるか


  • 代表的な本、技術リスト、データサイエンティストの推奨ではデータ分析・機械学習手法はどんなものがリストアップされているか


    • ここでは、統計学的検定、多変量解析、機械学習を分けていない



分析手法
Rによるデータサイエンス-データ解析の基礎から最新手法まで
はじめてのパターン認識
データサイエンティスト協会スキルチェックリスト
「実務で使う分析手法は5つで十分、マーケッターこそデータサイエンティスト候補」
データマイニングで使われるトップ10アルゴリズム
ビジネス実務の現場で有用な統計学・機械学習・データマイニング及びその他のデータ分析手法10+2選(2016年版)

統計学的検定

検定/判断

O

クロス集計

性質・関係性の把握
O

主成分分析・特異値分解
O
O
性質・関係性の把握/機械学習

O

因子分析
O

性質・関係性の把握

対応分析
O

性質・関係性の把握

多次元尺度法
O

性質・関係性の把握

クラスター分析
O
O
グルーピング
O
O
O

自己組織化マップ
O

グルーピング

回帰分析
O

予測
O

O

判別分析
O
O
グルーピング

生存分析
O

時系列分析
O

時系列

決定木・回帰木
O
O
予測
O
O

ニューラルネットワーク
O
O
機械学習

O

サポートベクターマシン
O
O
機械学習

O

アンサンブル学習
O
O
機械学習

O
O

アソシエーション分析
O

パターン発見
O
O

K近傍法
O
O

O

その他

その他にもあるが略

EM, PageRank, Naïve Bayes
MCMC, word2vec, グラフ理論・ネットワーク分析, LDA


機械学習の手法は大きく4つに分けられる

scikit-learnから学ぶ機械学習の手法の概要を参考とすると、機械学習の手法は下のように大きく4つに分けられる。


  • カテゴリ値を予測したい場合

教師なし
教師あり

クラスタリング
判別(分類)


  • 上記以外で

連続値を予測する(教師あり)
それ以外(教師なし)

回帰
次元削減


  • ここで、


    • カテゴリ値


      • YES/NO、都道府県、などとびとびのカテゴリを示す値



    • 連続値


      • 売上、温度、など連続値(売上は整数値ですが実質上連続値とみなされるので)





  • また、


    • 教師あり:答えとなる目的変数が与えられている。

    • 教師なし:答えとなる目的変数が与えられていない。



  • また、


    • 目的変数:求めたい値。従属変数とも呼ばれる。

    • 説明変数:それを説明する値。被従属変数、特徴量とも呼ばれる。



  • 注:この4つに当てはまらないものもある。


で、いつどれを使えばよいのか

上記データ分析手法でよく使われるもの「O」の多いものをこの4つの分類に当てはめると



  • 教師なし


    • 分類(クラスタリング)をする→クラスタリング

    • 次元削減をする→主成分分析

    • この他に自己組織化マップなど。




  • 教師あり


    • 教師ありデータの場合には、その予測を説明する根拠を必要とするか、予測精度を求めるか、で手法が絞られる。

    • 説明力が求められる場合(ビジネス用途で多い)


      • 回帰分析、決定木・回帰木が主に用いられる



    • 予測精度が求められる場合


      • アンサンブル学習かサポートベクターマシンが主に用いられる



    • 画像認識など説明変数が明確でない場合


      • ニューラルネットワークの一部としての深層学習が注目されている





手法
判別(分類)
回帰
説明力
予測精度
備考

回帰分析
X
O


回帰式が得られ、どの説明変数が予測値にどれだけ影響があるか明確に分かる

決定木・回帰木
O
O
回帰式は得られないが、説明変数の影響度が分かる

ニューラルネットワーク
O
O
X

ブラックボックスとなり説明力はない。予測の限界が言われていたが深層学習により大幅に向上し注目

サポートベクターマシン
O
O

O
アンサンブル学習が出る前までは注目技術だった

アンサンブル学習
O
O

◎/O
複数の学習モデルをつくり、平均か多数決を取るというもの。説明力はないか弱いが精度が非常によくなる。予測のコンペティションなどを席巻している


  • その他


    • 用途により、よく用いられる手法がある


      • 時系列データ


        • 時系列分析、状態空間モデル



      • これを買った人にはこれがお薦め


        • アソシエーション分析





    • また、手法の組み合わせも用いられる


      • 説明変数が多いので主成分分析で次元削減して変数を減らしてから判別、回帰の手法を用いるなど