G検定を受ける前に、公式テキストを読んでメモした走り書きがあったので公開するよ。
受験前にザーッと読んでおさらいしてね。
【機械学習の 学習方法 】
は3種類
・教師あり学習
正解付きデータから学習する
・教師なし学習
入力データそのものからその構造や特徴を学習する
・教科学習
報酬を定義して、それを最大化するように学習する
・半教師あり学習
教師あり・なし学習の組み合わせによって学習する。
【機械学習の解く 課題 】
は3種類
・回帰
ある数値から、連続値を予想する問題
・分類
ある入力から、そのラベルを予想する物
・クラスタリング
ある入力を、いくつかのグループに分類する事
【教師あり学習のモデル】
1.線形回帰モデル
データの関係性を直線で表す手法
例 住宅価格を部屋数から予測する
2.非線形回帰モデル
回帰を解くモデル
データの関係性を曲線で表す手法
株価データなど直線で表現するには限界があるもの
3.K近傍方(KNN)
分類問題を解くモデル
ある入力から、特徴が似ている順にK個のデータを選択し、
最も多く取得されたクラスへ分類する手法
Kの値は任意に設定できるので、大きくするほど境界がなめらかになる
4.ロジスティック回帰
分類問題を解くモデル
データを2クラスへ分類するための手法
5.サポートベクターマシン
データを2クラスへ分類するための手法
マージンを最大化する決定境界、識別面を求める。
●スラック変数
誤分類を許容した上でできるだけ誤分類を少なくするよう決定境界を求めることが出来る。
●カーネル法
線形分類できないデータに対して非線形な決定境界を求めることができる
●カーネルトリック
計算コストを削減に効率よく非線形な決定境界を求めることができる
【教師なし学習のモデル】
K平均法(K-means)
データをK個のクラスに分類する手法
Kの値は任意で決定できる
クラスタリングを行うための手法
主成分分析(PCA)
学習データの分散が最大となる方向へ線形変換を求める手法
次元を削減するために利用する
1次元PCA
2次元PCA
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
機械学習 教師あり学習 回帰 需要予測 売上予測
分類 不正探知 人口予測
教師なし学習 クラスタリング
教科学習 Q学習
ゲーム リアルタイム判断
半教師あり学習 自動運転
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
【機械学習モデルの学習】
モデルのパラメータを更新しながら、最も予測性能が良くなるパラメータ値を見つける。
どんなデータに対してもぴったりと予測が当てはまることは現実的にはあり得ないため、モデルには誤差がある。
この誤差が最も小さくなるパラメータの値がモデルにとって最適なパラメータと言える。
【最小二乗法】
学習データの平均二乗誤差を解析的に求める手法
平均二乗誤差 ミーンスクエアードエラー
データとモデル出力の間にある誤差を二乗したもの
(二乗しないとプラマイが相殺されてしまう)
【勾配降下法】
平均二乗誤差を最小化するパラメータを逐次的に求める手法
最小二乗法では求められない複雑なモデルに利用する
誤差関数を微分して、その傾きが0になるようにパラメーターを逐次更新する。
●学習の過程で気をつける点
過学習(over fitting) と 未学習(under fitting)
・過学習とは
学習データに対して、誤差が十分小さい一方テストデータに対して誤差が大きい
・未学習とは
学習データにたいして、小さな誤差が得られていない
【正則化法】
過学習を回避する手法の一つ
パラメータの値に制約を設けることでモデルの複雑性を調節する。
y=w0+w1x1+ε
【モデルの評価】
モデルを学習させたあとは、その精度を検証する
【データの分割】
データを学習用と検証用データに分割
学習データで検証した場合、一般的に当てはまりは良くなる
学習データで検証した場合、汎化性能を測るのが困難
【ホールドアウト法】
データを二つに分割し、一方で学習を行い、もう一方で検証を行う方法
学習用データの割合を増やすと、検証用データが減るため学習精度は良くなるが、検証の精度が悪くなる。
検証用データを増やすと逆の現象が起こる
データが豊富にある場合を除き、良い性能評価を与えられないという欠点がある。
【クロスバリデーション(交差検証)】
データをK個のグループに分割し、K-1個のグループで学習を行い、残り一個のグループで検証を行う方法
ホールドアウト法の欠点を補う物として利用される。