More than 1 year has passed since last update.

機械学習の手法

MachineLearning

Last updated at 2022-11-25Posted at 2022-11-25

AI, 機械学習, ディープラーニングの違い

機械学習とは

機械学習とは、コンピューターが大量のデータを学習し、分類や予測などのタスクを遂行するアルゴリズムやモデルを自動的に構築する技術。
機械学習の手法は大まかに3種類に分類される。

手法	代表例
教師あり学習	回帰, 分類
教師なし学習	クラスタリング
強化学習	囲碁, 将棋

回帰：数値を予測する
分類：カテゴリを予測する
クラスタリング：データをもとに特徴を抽出する

分類とクラスタリングの違い

分類とクラスタリングは別物！！
分かりやすいように大量のメールを分類する例とクラスタリングする例を考える。

・分類

教師あり学習。迷惑メールか否かなど、答えが分かっているデータから文章の特徴とクラスの関係を学習する。そしてクラスが不明の新着メールがどのクラスに当てはまるのかを予測する。

・クラスタリング

教師なし学習。迷惑メールか否かなどの答えがないデータから文章の特徴を学習し、特徴が似ているか否かでグループ分けをする。各グループが何を示しているかは解釈が必要。

分類にも二種類ある

出力層の性質上、ニューラルネットワークの分類問題はクラス数により下記の2つに大別される。

・二値分類(Binary classification)

クラス数が2つのものを分類する。0か1かの二値で分類を行う。出力層のノード数は2に設定する。scikit-learnを使って学習させる場合、モデルのコンパイル時損失関数を以下のように設定する。

model.compile(loss="binary_crossentropy")

・多クラス分類(Multi-class classification)

クラス数が3つ以上のものを分類する。インデックスのつけ方は主に以下の二種類存在する。

Label encording

0か1か2か...で分類する。この数字はラベルと呼ばれ、「Tシャツ=0」「ズボン=1」「プルオーバー=2」というようにカテゴリ変数に割り当てられる。この場合、出力層のノード数はラベル数と同じ値に設定する。決定木やランダムフォレストで有効。

One-hot encording

カテゴリ変数に優劣や平均がないデータに対してlabel encordingを使った場合、モデルが間違って認識してしまい正しいモデルを作ることができない。例えば商品A、商品B、商品Cというカテゴリ変数に1、2、3というラベルを与えたとすると、1(A)よりも3(C)の方が良い製品、という間違ったモデルを生成してしまう。また、数字として扱うと品目の平均をとれることになるので、1(A)+2(B)+3(C)=6/3=2(B)となります。これは品名の平均は2(B)になる、という誤ったモデルが生成されてしまうことになる。これを防ぐためにone-hot encordingを行う。one-hot encordingはラベルを以下のようなone-hotベクトルに変換する。

1 → [1, 0, 0]
2 → [0, 1, 0]
3 → [0, 0, 1]

機械学習モデルの全体像

教師あり学習の手法

手法	回帰	分類
線形回帰	○	×
ロジスティックス回帰	△	○
決定木	○	○
ランダムフォレスト	○	○
アダブースト	○	○
サポートベクターマシーン(SVM)	○	○
k-近傍法	○	○
ニューラルネットワーク	○	○

線形回帰

データの分布があるときに、そのデータに一番当てはまる直線を最小二乗法で求める手法。

ロジスティックス回帰

複数の変数から、ある事象が発生する確率を予測する。

決定木

データから木構造の予測モデルを作る。下図において、赤い四角を縦線の境界線で◯か×に分類する際、どこが一番正答率が高くなるか繰り返し設定を行う。

メリット：

人間が理解しやすい

デメリット：

外れ値の影響を受けやすい
過学習になりやすい
決定木は確率的アルゴリズムを使うため、計算する期待値は推定であり、各結果の正確な予測ではない

▼木構造の例▼

ランダムフォレスト

決定木をたくさん作り、平均あるいは多数決をとって回答を導く。複数の決定木を用いられているので、決定木の短所である「過学習」を克服している。

ランダムフォレストの特徴

決定木を作る際にすべての訓練データを使わずに、一部の訓練データのみを使う
決定木を作る際にすべての特徴量を使用せず、決めた数の特徴量のみ使用する。
ランダムフォレストは低バイアス・低バリアンスなモデルである

scikit-learnでは以下のようなパラメータを設定することが可能。

n_estimators:決定木の本数
max_features:特徴量のサブセットをランダムに選択するときの最大特徴量数。値を大きくするとランダムフォレスト中の決定木が似たようなものになり、値を小さくするとランダムフォレスト中の決定木はそれぞれ大幅に異なるものになる。
max_depth:決定木の深さ
criterion:不純度評価指標