はじめに
私は東京科学大学の3年で、物理学を専攻しています。ここでは、私が機械学習の勉強を通じて学んだことを整理し、アウトプットしていきます。
教師あり学習
最初に紹介するのは教師あり学習です。これは、人間がラベル(正解)付きの訓練データを与えることで、機械がそのパターンを学習し、未知のデータに対して予測を行う手法です。
教師あり学習の種類
教師あり学習は、出力値の性質によって大きく2つに分けられます:
-
分類(Classification):出力値が離散的な場合。
例:メールがスパムか否かを判定する問題は二値分類にあたります。また、A, B, C や 0, 1, 2 のような複数クラスに分ける場合は、多クラス分類と呼ばれます。 -
回帰(Regression):出力値が連続的な場合。
例:数学のテストの点数を、勉強時間から予測する問題は回帰です。このとき、勉強時間が入力変数である特徴量、点数が出力変数である目的変数です。
強化学習
次に、強化学習について説明します。強化学習では、システム(エージェント)が環境と繰り返し相互作用しながら、報酬を最大化するように行動を学習していきます。
ここでの報酬とは、エージェントの行動の良し悪しを数値で表したものです。報酬はすぐに得られることもあれば、遅延フィードバックとして後になって得られることもあります。
例えば将棋AIでは、試合に勝てば正の報酬、負ければ負の報酬が与えられます。このようにして、エージェントは長期的により良い行動戦略を学習していきます。
教師なし学習
最後に教師なし学習について説明します。
教師なし学習は、正解がないデータを複数与えて目的変数や報酬を使うことなくデータの構造を分析する手法です。
クラスタリングという手法を使えば、大量の情報を意味のあるグループ(クラスタ)に分類することが出来ます。この分類の事を教師なし分類といいます。
また、教師なし学習には次元削減 というフィールドがあります。これは、データの前処理に使われることが多く高次元のデータをノイズを取り除いて次元を圧縮することを指します。