はじめに
Kaggleの初心者向けチュートリアルであるTitanic(タイタニック)に取り組んでみました。
最初は精度80%超えることを目標としていましたが、チュートリアルなので可視化とか色々触ってみることを目的に途中で変えたので最終的な精度は77%です。
参考にした記事
Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~
KaggleチュートリアルTitanicで上位2%以内に入るノウハウ
タイタニック号の乗客の生存予測〜80%以上の予測精度を超える方法(モデル構築&推論編)
Notebook
コードやグラフ等は下記のNotebookを参照してください。
やってみて感じたこと
-
データの背景について理解することが大切
データにも現れているが、避難では女性や子供が優先されていた。
港の値はS(サウサンプトン)が多いが、これは出発の港であるため。
事故は深夜に起きた。 -
データの傾向から想像することが大切
いいチケット、高い運賃の人は生存率が高い。→高いお金を出せる(社会的地位があると思われる)人も優遇されていた可能性があると思われる。
日中なら家族や同室の人でもバラバラに行動していることも考えられるが、深夜ならみんな部屋で寝ている可能性が高く、行動を一緒にした可能性が高い。
1人や5人以上で行動したと思われる人は生存率が低い。→1人ではどう逃げればいいか分からず逃げれなかったり、人数が多いと身動きが取りにくかったのではないかと思われる。 -
欠損値の補完はデータによって単純に全体の最頻値や中央値、類似データの最頻値や中央値、モデルを作って推定等といった手法がある。
-
これまで数値や区分値といった値にばかり目がいっていたが、Nameのような文字列データから傾向を読み取ることも大切。
-
データセットにある特徴量の取捨選択だけでなく、データから特徴量を作ることで精度向上に役立てられる。
次の予定
今度は回帰問題であるHouse Priceをやってまた記事に書こうと思います。