お題「Python機械学習ことはじめ」

千葉市のインフルエンザ報告数と、気温から流行を予測する

手順

千葉市と気象庁からいただきー。

*　グラフにしてみたり
*　相関見えてくる？
*　使う特徴量を決める

*　ディープラーニングで特徴量全部がっつり？
*　場合によってデータ再加工
*　次元数作成？？？
*　説明変数と目的変数を決める

ここまでくれば簡単
すぐすんじゃう

*　予測
*　予測結果を評価
*　交差検証とか
*　モデルにフィットしすぎて過学習になってないかとか

[Shift]-[Enter]で実行してくれる

便利

ｇｉｔｈｕｂにもそのまま公開できる

いけてないCSV読み込んで、なんとなく加工できちゃう

データフレーム機能を駆使

日付でインデックスつけとけば、週単位のデータと日単位のデータの連結もコマンド一発

シリアライズ化

ここが一番時間かかってたいへん

日本語入っているとうまくいかない

pandasからｍａｔｐｌｏｔｌｉｂ使ってヒストグラム簡単に出したり

「流行」とは何かを定義したり

pandasで、多変数うんたらを一気に可視化
左下から右上にまっすぐ上がるグラフは相関1

とか

説明変数x

目的変数y　流行っている1　流行ってない0

過学習を避けるため、テストデータを取っておく。80%を学習に、20%をテスト
割合は、モデルやデータ量による

scｉｌｉｔ－ｌｅａｒｎを使う

だいたい当たるので、混同行列を使う

真陽性　偽陽性
真陰性　偽陰性

学習とテストの割合はOKだった？
分割をやり直して計算し直すのを繰り返す

（というところで、時間切れ