はじめに
世の中の情報処理をおこなうシステムは、大半が 入力 に対して 出力 を求めるものです。
極端な解釈かもしれませんが、このイメージで問題ないと思います。
システムのイメージ:
(入力)⇒(システム)⇒(出力)
簡単な例
税込価格の計算システム
単純なシステムの例として、税抜価格から税込価格を計算するシステムを考えてみます。
ここでの 入力 は 税抜価格 、出力 は 税込価格 となります。
(再掲)システムのイメージ:
(入力)⇒(システム)⇒(出力)
イメージに当てはめると、ここでのシステムは
与えられた入力(税抜価格)に 1.1 を掛けて出力(税込価格)を求める
というものになります。
(税抜価格)⇒(1.1倍)⇒(税込価格)
教師あり学習
ここから本題に入ります。
先ほどの税込価格計算システムでは、税率が 10% であると知っていたため、簡単に税込価格を求めることができました。
では、税率を知らない状態で税込価格を計算する にはどうすればよいでしょうか。
税込価格を推定するために用いられる方法が、教師あり学習 という方法です。
教師あり学習の方法
教師あり学習は 入力 と 出力 のデータを大量に用意して、もっともらしい結果が得られるシステム を作るというものです。
入力 と 出力 のペアデータを 訓練データ といいます。
訓練データの 出力 部分はとくに、教師 とよばれます。
学習の例
先ほどの税込価格計算システムを、教師あり学習で再現してみましょう。
訓練データとして 税抜価格 と 税込価格 を与えて、税率を推定します。
(訓練データの例)
- 入力:100, 出力:110
- 入力:500, 出力:550
- 入力:550, 出力:605
訓練データを観察すると、入力に対して出力は1.1倍の値となっています。つまり、訓練データから推定される、もっともらしい税率は 1.1 倍である といえます。
実際の教師あり学習ではこれより多くの訓練データ(万単位)で学習をおこないます。
推定の対象(ここでは税率)をパラメータとよびます。
いろいろなシステム
画像の認識
入力:手書き数字の画像
出力:0 ~ 9 の数字
音声の認識
入力:音の波形
出力:子音, 母音
自動運転
入力:周囲の画像, 現在の速度, ...
出力:ハンドルの角度, 適切な速度
まとめ
教師あり学習は、訓練データから、もっともらしい結果を求めるようなシステムを作るという方法でした。とてもざっくりしてますが、大体このようなイメージで問題ないかと思います。