回帰と分類
回帰とは、入力変数xに対して、数値yを予測するものです。
「賃貸物件の面積、駅からの距離などに対応する家賃のデータ」という「教師」があり、その教師のデータを使って、面積や距離を入力した時に、未知のyを予測します。
同じ教師あり学習に「分類」というものがありますが、それは、入力変数xに対してカテゴリyを予測します。
これは、「犬はこんな特徴、猫はこんな特徴」という教師があり、その教師データにしたがって、顔の形や体重などを入力した時に、未知の動物を犬と猫に分類するという感じです。
重回帰分析とは
重回帰分析は、1つの目的変数を複数の説明変数で予測するというものです。
教師あり学習の「回帰」で使われます。
式にすると以下のようになります。
y=w_0x_0+w_1x_1+w_2x_2+...+w_nx_n
*バイアス b を w0x0 と置いています。
具体例でわかりやすく
僕は「賃貸物件の家賃を予測する」という例で習ったので、その方法で説明します。
重回帰分析を、1つの目的変数(家賃)を複数の説明変数(面積、駅からの距離、寝室の数など)で予測するために使うとすると、
y = 家賃
x1 = 面積
x2 = 駅からの距離
が入ることになります。
では、w(重み:weight)は何を表すかというと、それぞれの説明変数xがどれぐらい家賃に影響するかを表す数字となります。
例えば、
y=w_1x_1
という関数だったとして、yが家賃、x1が面積とする時、家賃50000円の物件が面積10坪だったとしたら、w1は5000という値を取りますね。
このw1が重みです。
これに、「面積」以外にも、「駅からの距離」という要素も考慮して、家賃を計算したい時、要素が二つあるので、重みも2つになります。
y=w_1x_1+w_2x_2
駅からの距離は200メートルだとしたとき、
もしw2がw1と同じく5000だったら、y=50000+1000000=1050000となり、家賃105万円となってしまいます。
でも実際は、駅からの距離(メートル)がそんなに家賃に影響を与えることはありませんよね。
なので、w2を計算して、求める必要があります。