これから機械学習を勉強してみたい!と思っている方に向けて書いた記事です。今回は回帰問題と分類問題について説明します。難しい言葉や数式は全く出てこないので安心してください!また、記事の最後にクイズも用意したので、ぜひチャレンジしてみてください。
##機械学習の種類
機械学習には大きく分けて3つの種類があります。教師あり学習、教師なし学習、強化学習です。この記事では機械学習の中で最も一般的である教師あり学習について扱います。
##教師あり学習とは?
例えば動物の画像データを大量に用意します。これらの画像データにはそれぞれ動物の種類の名前が正解として紐づけられています(この画像のはイヌ、この画像はネコといったように)。
大量の画像を機械に何度も何度も見せることによって、だんだんとそれぞれの動物の特徴が分かってきます。
そしてまだ見せていないイヌの画像データを見せたときに、機械は「しっぽがあって、ギザギザの歯があって・・・」と分析して、「これはイヌです!」と答えるようになるのです。
このようにあらかじめ正解が分かっているデータを分析させて、未知のデータを予測させる手法を教師あり学習と呼びます。
さて、この記事の本題に移りますが、実は教師あり学習には回帰問題と分類問題といった2つの種類があります。この違いについて、さっそく見ていきましょう。
##回帰問題とは?
例えば次のようなグラフがあったとしましょう。このグラフは、ある土地における温度と湿度の関係を表しています。
もし温度が23℃のとき、湿度はどれくらいになるでしょうか。残念ながら23℃はこのグラフ上にプロットされていないので自分で予想を立てなければいけません。
図1のように直線を引いた場合は湿度35%、図2のように曲線を引いた場合は湿度37%です。わずかな違いではありますが、湿度の値が線の引き方によって変わりました(もちろん最も良い線の引き方もありますが、今回は省略させていただきます)。
しかしながらどちらも共通していることは、温度が決まれば湿度も必ず決まるということです。線を引いたことによって、温度が17℃のときや34℃のときも湿度を求めることができますよね。これは引いた線がずっと続いていて途切れていないからです(これを連続しているといいます)。
回帰問題とは連続した数値における予測を行う問題です。
##分類問題とは?
柴犬の特徴って何でしょうか?体の高さよりも体の長さの方がやや長く、小さな立ち耳で巻き尾、毛の色は茶色や黒色で腹は白色・・・。たくさんありますね。
大量のイヌの画像で学習した機械に、正解が「柴犬」の画像(機械にとっては未知のデータ)を見せます。最初に「体の大きさ」で判別したとしましょう。大型犬である「ハスキー」や「ゴールデンレトリバー」の可能性が消えます。続いて「しっぽの立ち具合」で判別します。ここで、しっぽが垂れている「ダルメシアン」などの可能性が消えます。・・・。
というように機械は「イヌはこういった特徴がある」ということを学習していて、それに基づいて正解を出します。
分類問題とは、データがどのグループに属するのか予測する問題です。
###確認クイズ
次の例は回帰問題、分類問題のどちらかに当てはまるか答えてください。
去年発売されたパソコンが欲しい。今から数えて3か月後にお金が貯まるので買いたいと思っている。いくらくらいの値段で買えるか予想したい。
↓
↓
↓
↓
↓
↓
↓
######クイズの答え
回帰問題
参考
『ゼロから作るDeep Learning pythonで学ぶディープラーニングの理論と実装』
『Coursera Machine Learning』