機械学習の定義について
これといった定義はなく、そもそも定義などできないものではないかと感じている。 文献によって定義が違うこともしばしば。そのため複数の書籍を読む中で一番しっくりきたものを 自分なりの定義として記しておくことにする。
・入力データ(=説明変数)から基準を学習して判断モデルを構築し、
それに基づいて未知の結果(=目的変数)を予測する技術
この「判断モデル」は次の二つの側面を持つ。
・入力データに対して出力データを返す関数のような働きを持っている。
・判断モデルの振る舞いは、学習により規定される。
機械学習の方法
①教師あり学習
学習データが、モデルに対する入力データとその時にあるべき出力である教師データのセットになっている学習法。
教師あり学習のおもな分析手法には「回帰」や「分類」がある。
「回帰」の目的は、連続値などの値の予測。例えば、気温の高さとアイスの売り上げ金額の関係予測等。
「分類」の目的は、データが属するクラスを予測すること。例えば、ECサイトで顧客のプロフィール情報に基づき「その製品を買うか買わないか」を予測する等。
②教師なし学習
教師データなしに、学習データのみが与えられ、そこからなんらかの出力を得る学習法。例えば、商品の売り上げデータを基にある商品と一緒に購入される可能性が高い商品をコンピュータが計算によって判断する等(レコメンドシステムと呼ばれ、Amazon等のECサイトでよく使われている)。
分析手法としては「クラスタリング」と「次元削減」がある。「クラスタリング」とは異なる性質のものが混ざり合った集団から、似たような性質を持つもの同士の一定の規則・共通項に従って分類・グルーピングする手法のこと。「次元削減」とは、文字通り次元数を減らすことをサス。具体的には多次元からなる情報を、その意味を変えずに、より少ない次元の情報に落とし込む。主な目的はデータの圧縮やデータの可視化。
③強化学習
教師あり学習と教師なし学習の中間の学習方法。報酬を最大化する行動を試行錯誤で学習する。例えば、将棋に関する強化学習では、敵の王将をとることに最大の報酬として設定し、コンピュータに報酬を高める指し方を繰り返し学習させる。
参考文献
1)赤石雅典『最短コースでわかるディープラーニングの数学』、日経BP社
2)毛利拓也,北川廣野,澤田千代子,谷一徳『scikit-learnデータ分析実装ハンドブック』、株式会社 秀和システム