ド素人のML勉強メモ。不定期更新。
MLのための python リソース
- Awesome Pysci by bafoo
- https://github.com/bakfoo/awesome-pysci
- あのawesome pythonの機械学習版。丁寧な日本語説明付き。
webinar
- Machine Learning by Stanford Univ.
- https://www.coursera.org/learn/machine-learning/
- 有名なやつ。無料、わかりやすい、日本語(字幕)あり。
- 基本的に数学の話ばっか。これを観て数学的な部分を理解した上で numpy / scikit-learn / tensorflow 等を触るとより効果的。
- 時間がかかる。毎日1〜2時間かかる。テストもありわりと本気でやらないとだめ。
- 【終了した方の所感記事】Courseraの機械学習コースを修了しました
本
- Python機械学習プログラミング 達人データサイエンティストによる理論と実践
- https://www.amazon.co.jp/dp/4844380605
データセット
- UCI Machine Learning Repository
- http://archive.ics.uci.edu/ml/
- Irisをはじめいろいろある
- Kaggle Datasets
- https://www.kaggle.com/datasets
- European Soccer Database みたいな面白いデータセットがあり楽しそう ( https://www.kaggle.com/hugomathien/soccer )
ウェブ記事
- Machine Learning in a Week
- https://medium.com/learning-new-stuff/machine-learning-in-a-week-a0da25d59850#.y88amjan7
#1:線形回帰
-
scikit-learn video #6:
Linear regression (plus pandas & seaborn) -
http://blog.kaggle.com/2015/05/28/scikit-learn-video-6-linear-regression-plus-pandas-seaborn/
-
kaggle のブログは購読すべき。 (http://blog.kaggle.com/)
-
A friendly introduction to linear regression (using python)
-
練習:Bike Sharing Demand (kaggle)
-
締め切っちゃってるので正式なランクはもらえないけど評価してくれる
-
かんたんそうだけどそうでもない
-
安易にコードを書いて提出したら3000/3200(期限中の参加者総数)位くらい
- season, holiday, workingday, weather で grouping してから、それぞれ学習させ、テストデータは同グループの学習結果を使って予測する
- 学習するには temp, atemp, windspeed, humidity を使う
-
解説: https://www.analyticsvidhya.com/blog/2015/06/solution-kaggle-competition-bike-sharing-demand/
-
メモ
-
学習率の選び方:(小さすぎる:収束が遅い)..., 0.001,0.003, 0.01, 0.03, 0.1, 0.3, 1, ...(大きすぎる:コスト関数が小さくならないか、収束しない)→ 3倍ずつ
-
Feature Scailing(ノーマライズ):normalized_value = (original_value - average) / (max - min)
応用
オンライゲームのチート対策
- Probabilistic Approaches to Cheating Detection in Online Games
- http://www.hamilton.ie/dwmalone/CIG2010.pdf