機械学習の概要(種類と課題と手法)
機械学習の種類は3つある
1.教師あり学習
2.教師なし学習
3.教科学習
機械学習の課題も3つある
1.回帰問題
2.分類問題
3.クラスタリング
機械学習の代表的な手法
1.教師あり学習での手法
①線形回帰(回帰問題)・・・ラッソ回帰
リッジ回帰
回帰直線を求めることで、入力データから出力の値を予測する。
回帰問題に使用する。
②ロジスティック回帰(分類問題)
二つに分類するとき・・・シグモイド関数
多数に分類するとき・・・ソフトマックス関数
離散しているデータを分類するために使用する。
分類問題に使用する。
③ランダムフォレスト
複数のモデルを一気に並列に作成する(バギング)
ブートストラップサンプリングを用いる
→アンサンブル学習、バギング
④ブースティング
複数のモデルを逐次的に作成する(ブースティング)
バギングは並列のブースティングは逐次的
AdaBoost、勾配ブースティング(gradient boosting),XgBoost
⑤サポートベクターマシン(SVM)
各データ点との距離が最大となるような境界線を求め、パターン分類を行う
マージン最大化(距離の最大化)
高次元のデータを扱う→直線でなく超平面で考える
データが線形分類できない→高次元に写像し、空間で線形分類する
高次元に写像→カーネル関数を使う、カーネルトリックと言う
⑥ニューラルネットワーク
人間の脳の中の構造を模したアルゴリズム
単純パーセプトロン・・・入力と出力の2層構造の単純なニューラルネットワーク
活性化関数としてシグモイド関数を使う
ロジスティック回帰と数式上は同じ
入力層と出力層の間に隠れ層を追加した物を、多層パーセプトロンと言う
隠れ層を追加したことで表現の幅が大幅に向上するが誤差も増えてしまう。
誤差逆伝播法(backpropagation)で調整
2.教師なし学習の代表的な手法
①k-means
k個のグループに入力データを分類する
グループのことをクラスタとよび、この分析のことをクラスタ分析と言う
グループごとに分類されたものに、人間がラベル付けをする。
②主成分分析(PCA)
データを主成分だけになるよう次元削減を行う