• 30
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

特に新しい情報はないのですけれど、数年前の僕が欲しかった情報について書きます。のでどなたかにはお役に立つかも。

機械学習

定義

統計
データの要約(合計、平均、分散、etc)でデータを表現する。モデルがすでにあり、それを用いた推測、判別を行う。
機械学習
訓練データから学んだ「既知」の特徴に基づく予測
データマイニング
それまで「未知」だったデータの特徴を発見すること

c.f. Wikipedia:機械学習#データマイニングとの関係

、、、だが、最近は混同されて使われていると思う。特に少し前に流行った「データマイニング」に対し、ほとんど同じ文脈でも新しい言葉として「機械学習」と言われていることが多いと思う。下記表において、

  • 多変量解析:主成分分析~決定木・回帰木
  • 機械学習・データマイニング:ニューラルネットワーク~アンサンブル学習 と呼ばれることが多いと思う。

概要

機械学習手法(多変量解析も含む)

  • 2値(場合によっては3値以上)を分ける判別(分類)と、説明変数の組み合わせで目的変数を数値的に予測する回帰の大きく分けて2つの目的がある。
手法 判別・回帰 教師あり・なし 説明変数が後から分かるか 特徴 備考
主成分分析 -次元削減 教師なし Top10TK(主成分分析・因子分析)
回帰分析 回帰 教師なし 分かる Top10TK
ロジスティック回帰 回帰 教師なし 分かる Top10TK
クラスタリング 判別 教師なし 分かる Top10DM(K-means)、Top10TK
決定木・回帰木 判別・回帰 教師なし 分かる Top10DM(C4.5、CART)、Top10TK
ニューラルネットワーク NN 判別・回帰 教師あり 分からない 一時大流行したがその限界が指摘されて下火になったものの、ディープラーニングとして復活している。判別が主だったが最近は回帰も可能。
サポートベクターマシン SVM 判別・回帰 教師あり 分からない 欠損値があっても有効、未学習データへの識別性能の高さなどから大流行した。今も使われている。判別が主だったが最近は回帰も可能。 Top10DM, Top10TK
アンサンブル学習 ランダムフォレスト RF 判別・回帰 教師なし 分かる アンサンブル学習の先駆け。今も使われている。 Top10DM, Top10TK
アンサンブル学習 バギング 判別・回帰 教師あり Top10TK(アンサンブル学習)
アンサンブル学習 ブースティング 判別・回帰 教師あり AdaBoost、勾配ブースティング(XGBoost)精度が良く人気がある。 Top10DM(AdaBoost)、Top10TK(アンサンブル学習)
アンサンブル学習
弱い学習機をたくさん組み合わせて多数決や平均を取り学習するもの。一般にアンサンブル学習以外よりも性能が良いと言われている。

その他

  • 因果推論
    • ベイジアンネットワーク
    • グラフィカルモデリング

今の流行

  • 深層学習 Deep Learning
    • 今までの機械学習は特徴量を指定する必要があったが、特徴量を自動抽出できる

次の流行?

学習方法

数学

機械学習の森、数学の剣~探索者の憧憬~に統合予定

   ・・・位相  --
           |-情報幾何?
    |-微分幾何?-
    |
微分積分--最適化--
    |     |
    |-統計学---機械学習
    |     |
線形代数-------

離散数学-・・・情報理論