本全体の感想
実際に上位のkagglerが使用した手法が記載されていて面白い。また数学的知識や数学に嫌悪感のある人でもかなりわかりやすく説明してくれている。また機械学習をしない人でも知見として軽く読むには適していると感じた
本の構成
- はじめに
- 分析コンペとは
- タスクと評価指標
- 特徴量の作成
- モデルの作成
- モデルの評価
- モデルのチューニング
- アンサンブル
1 はじめに
目次を読んで好奇心をあげるために読んだ。あらかじめ機械学習をちょろっと知ってる人なら好奇心あげあげ
2 分析コンペとは
この辺は分析コンペのモラルとかルールとかが記載されている。コンペに参加する場合は読んでみて損はない
3 タスクと評価指標
kaggle側がどのような評価指標を使っているか知れる。もちろんこの辺は実務的なことに使えてくるのでここから読み始めるのがおすすめ。評価指標を知ることは自分の見解だと機械学習を行う上で二番目に大事なことだと思います。
4 特徴量の作成
この本は後半モデル(学習器)の話が多いけどここが一番大事。ここだけでかなりの知見を得ることができた。この本は機械学習の本じゃなくてコンペ専用の本なのでここが詳しくなるのは必然かな。。すなわち機械学習を行うので一番大事なのは前処理ってことです。(個人的な意見です)
5 モデルの作成
数学的でなく直感的にモデルどんなものか知れる。使うだけなら非常に便利。特にGBDTに詳しく書いてある。ここ読むだけで機械学習の話ができるようになるかも
6 モデルの評価
三番目に大事なのがここの章かもしれない。なぜかというと後述のアンサンブルは実務的ではなくコンペで気持ちよくなるのが目的と言った印象
簡単にいうとバリデーションがでぇーじ、時系列データのバリデーションの注意点も教えてくれる
7 モデルのチューニング
ここの読んだ時の印象は「え、もっと早く教えてくんね?」って感じです。今まで読んだ本の中でもかなり効率よく見やすく教えてくれる。(そんな読んだことないけど)ありがとうございました
8 アンサンブル
みんな気になるアンサンブル。スタッキングについて全体像を理解するのにかなり助かった。正直ここ読むまでスタッキングが何かわかった気になっていた。数学的知識も不要。
また実際にkaggleで使われた例を何個もあげてくれているので想像がとてもしやすい
かなり雑に書いたので誤字脱字がたくさんあると思います。
追記
思ったよりたくさんの人にみてもらったので、この本の感謝も込めてリンクを追加しておきます。
kaggleで勝つみなさんもぜひ読んでみてください。