勉強のアウトプットとして、間違ってたりすることがあるので、お気軽にコメントして下さい。
今回は予測することに関して書いてきます。
#内容
・予測するとは
・変数の種類
・予測する手法
・データについて
##予測するとは
ある時間前のグラフの情報からその時間後のグラフが上昇するのか下降するのかを予測したり、あるラベルが与えられて、それをどのように分類するのかを予想したりすることを言います。
##変数
予測で使う変数は主に二つあります。
・目的変数
・説明変数
###目的変数
目的変数とは扱うデータの対象のことです。例えば、商品の売り上げを挙げてみると商品の個数そのもの自体が目的変数となります。
###説明変数
説明変数とは、目的変数に作用する事象のことです。例えば、りんごの売り上げには天候、消費者の需要、現代の社会問題が原因で売り上げが下がったり、上がったりします。説明変数はそれらの事象のことです。
##予測する手法
予測する手法として以下の二点があげられます。
・回帰
・分類
###回帰
これは数値を対象にグラフの予測をしたりします。例えば、さっき例で挙げたような商品の需要予測がそれにあたります。
###分類
これはカテゴリ別に分ける手法です。例えば、ライオンやチーターなどをネコ科の動物というカテゴリに分けますよという予測をするわけです。
##データについて
データとは日常的によく用いられていますがデータサイエンスの世界ではしっかりと構造化されています。それが以下の二つです。
・学習(train)
・評価(test)
###学習
データをもとにモデルを作ること
###評価
学習したモデルともとの評価データを比べること
※注意点
モデルを作っていくうえで、気を付けなければならないのが過学習を避けることです。過学習とは、特定のデータを入れすぎて柔軟に予測ができなくなることを言います。例えば、100人の生徒がいる塾で全員がリンゴが大好きというデータを入れたときに機械は他の人たちも100%の確率でリンゴが大好きであろうと予測するわけです。しかし、別の塾ではリンゴが大好きな生徒が半分しかいなかったり、またはそれ以下だったりするわけです。この時点で予測100%ではなくなってしまうわけです。これが過学習です。だから、これを避けるべく学習するデータ量というのは調整が必要なのです。