一部のサイトにおいては,予測式をいかに上手く作るかを競っている。
たとえば,サンプルサイズが 1000 だとして,一つのサンプルを正解にする(正解率を 0.001 上げる)ために,どれだけの特徴量(まあ,独立変数にすぎないのだが)をひねり出していることか。Titanic の元データがなんだか知らないが,乗客の名前から特徴量を紡ぎ出すというようなことも行われているようだが(そもそも,大元の Titanic のデータにそんなものがあるのかどうなのかしらないのではっきりとはいえないのだが),どうかなあ?と思う。
まあ,せめてもの防波堤は,どんな特徴量を紡ぎ出そうが,それは train data でのことで test data ではそのような特徴量が機能するかどうかは保証できない。
しかし,恐るべきことに,test data に含まれない特徴量を train data に含まれる特徴量で,推定?して test data でも有効な予測式を作り上げようという試みまで出てきたのか?
ここまで来ると,もう,ゲームだよね...
所詮,train data と test data という閉じたデータ空間で,どれだけ正解率を上げることができるかという。
train data と test data 合わせてサンプルサイズが数億,数兆という場面であっても,数のお遊びに過ぎないと思う。
逆に,サンプルサイズが数億,数兆なので,ちょっとしたモデルの差(ある特徴量を含むか含まないか)が誇張されるんだから。