More than 5 years have passed since last update.

教師あり学習の用語ざっとまとめてみた(初心者&忙しい人向け) Part2/2

Posted at 2020-06-15

教師あり学習に関する19用語集

1:過学習

学習データに対してはきちんと正解できるけど、未知のデータに対しては全然当たらないモデルの状態。

2:ホールドアウト法

訓練データを**「学習用」「評価用」に7対3など(任意に決める)に割合で2分割**して、学習済みモデルの精度を測定する方法。

3:交差検証法

訓練データを3分割以上して、学習済みモデルの精度を測定する方法。

ホールドアウト法、交差検証法を行うことで、過学習が生じてないかを確認できる！。

4:グリッドサーチ

全てのパラメータの組み合わせを試してみる方法。
つまり、モデルの精度を向上させるために用いられる手法。
ex)SVM(サポートベクターマシン)
・gammaとCをfor文を用いて、ベストスコアを探索する。

5:特徴量

学習の入力に使う測定可能な特性。
ex)家賃予測をしたい
・「専有面積」「築年数」「最寄駅」を説明変数としたとき、この３つのデータが特徴量。

6:特徴選択

機械学習モデルの予測精度の改善を目的として、訓練データの中からターゲットの予測により強い関連がある特徴を選択すること。
つまり、重要な特徴量のみでモデル構築を行えるための手法。

7:特徴抽出

訓練データを別の空間に射影してから、その射影先の空間で特徴量を少数選択して学習に使う、という方法。例えば、n 次元からの特徴量を別の n 次元の空間に射影して、その射影後の空間において k (< n) 個の特徴量を選ぶ。
ex)
・主成分分析
・線形判別分析

8:混同行列

モデルの性能評価に使えるもの。

9:適合率()

「正」と予測されたデータのなかで、実際に「正」だったデータの割合。

「顧客の好みでない商品を提案したくない」などのケースでは、高い精度が求められる。
WEBサービスのレコメンドなどで最重視される指標。

10:再現率

「正」だったデータのなかで、実際に「正」と予測されたデータの割合。

「絶対にミスしてはいけない」などのケースでは、高い再現率が求められる。
医療検診などで最重視される指標。

11:正解率

データに偏りがある場合、正解率という指標を使うと直感と外れる場合がある。
→このようなデータセットには正解率はあてにならない。

12:F1スコア

精度と再現率の調和平均。
精度も再現率もどっちも欲しいというワガママな指標。

機械学習モデルの評価の際、正解率と並んで最も使われる指標。

どの指標を最重視するかをきめてからモデル構築すべし！

13:真陽性率

「正」のものを正しく予測できた割合
（ヒット率）= TP／（TP＋FN）

14:偽陽性率

「正でないもの」のうち誤って「正」と予測した割合
（誤報率）= FP／（FP＋TN）

15:アンサンブル学習

・複数の学習機(モデル)を組み合わせ、より良い予測を得ようとするテクニック。
単一のモデルを単独で使うよりも大抵の場合良い結果が得られる。
・具体的には、複数の予測器の予測値の**「平均を取る」、もしくは「多数決をとる」などの処理で組み合わせる。
・近年、データ分析の現場で注目されている「ブースティング」「ランダムフォレスト」**などもアンサンブル学習の一種。

16:ブーストラップ法

訓練データからランダムに(重複ありで)n個のデータをサンプリングする。
訓練データから大きさnのブーストラップデータ集合をN個生成する。

17:バギング

ブーストラップ法により弱学習器を構築し、それから最終的な学習器(モデル)を構築する方法。

18:ブースティング

ベース学習器を逐次的に訓練する。
まずオリジナルの学習データに対して最初のモデルが構築される。
この時点で、予測と正解を比較して合致しているサンプル、外しているサンプルを把握する。
そして外したサンプルが次のモデル構築の段階で重視されるように新しい学習データが生成される。
それを繰り返して、汎化性能を上げる。

19:ランダムフォレスト

「バギング」のベース学習器として「決定木」を用いた手法。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up