機械学習3箇条
- ゴールからやれ
- 認知バイアスを認識しろ
- オッカムの剃刀
対象読者: 手法の研究ではなく、機械学習で特定の問題をときたい人
ゴールからやれ
プライオリティ
ポリシー > データとドメイン知識 > 検証 > 学習
ポリシーが決まると、データとドメイン知識が決まる。
データとドメイン知識が決まると、検証が決まる。
検証が決まると、学習が決まる。
学習を始める前に、絶対に抜け道の無い検証を作れ。 <- マジで
いろいろ試行錯誤してチューニングしてそこそこ良いのができたと思ったら、
検証が間違えていたことがわかり、全てが無に帰すことが何度もある。
検証を作る前に、データの質を疑え。
データの質が悪いならデータを用意する方法を考えろ。
さんざんやってデータの質が悪いという結論に至ると検証以下が無に帰す。 <- 俺なう
データを用意する前に、ポリシーを決めろ。
例えば、データの質を判断するポリシー。
データを全て目視してOKなら良いのか?
サンプリングしてOKなら良いのか?
データがちゃんとした方法で作られていればよいのか?
どこまでドメイン知識を入れるかのポリシー。
ポリシーが決まらないと、データとドメイン知識を確定できない。
ボトムアップでやると探索範囲が広すぎて時間を浪費する。
一般化すると、手戻りをなくすためにゴールからやれ。
認知バイアスを認識しろ
わかりやすいもの(事実ではないもの)に注目する。
良い結果(事実ではないもの)に注目する。
これでなんども痛い目を見た。
成果を求めてコンプライアンス違反をする会社のように、
良い結果を得るために検証方法を間違えたりする。
人間はかなり優秀な探索アルゴリズム。
オッカムの剃刀
いろいろやっていると、
僕の考えた最強の手法を編み出したくなる。
でも、オリジナルな方法は既存手法に比べて仮定が多すぎる。
ぼくの取り組んでいる問題は、
新しい手法を使わないと解けない問題なんだ。
すごいんだ。
と考えたくなる気持ちも分かるが、