GCPでkaggle入門してみた。Titanic: Machine Learning from Disasterをサブミットするまで

Posted at 2018-01-21

はじめに

*GCPを触ったことがない人
*Kaggleを初めて使う人
*機械学習があまりよくわかっていない人

*とりあえず、KaggleにチュートリアルのTitanicをサブミットするところまでを環境含めてできるようにする。

*Qiita初投稿のため読みにくいかもしれません。
*参考サイトを多用します。
*機械学習の中身については触れていません
*個人的メモ（整理）的な側面が強いです

1.Kaggleへの登録
2.GCPへの登録と環境の構築
3.処理実行
4.サブミット

まず、こちらはQiitaの下記記事を参考にしました。
Kaggle事始め

ぶっちゃけ上記記事で完結することは可能です。
今回、私は実行環境にGCPを利用したかったため、別の内容を探しました。

GCPへの登録に関しては、下記の解説動画を参考にしました。
動画のVol.1~Vol.3まで見ると環境の構築までわかります。
(Anacondaをインストールするところまで実行しました）
Kaggle入門動画をつくった

tkm2261さんの動画です。
Kaggle用Slackも作成されており、そちらにも参加させていただきました。

ここで、私はWindows環境からGCPへファイル転送を行いたかったため、下記を参考にしました。
Google Compute Engine にscpでファイルコピーを実施

さて、ここで「1.Kaggleへの登録」の参考サイト記事の元へ戻ります。
Titanicのtrain.csvとtest.csvをWinSCPにてGCPのUbuntuへアップロードし、
さらに実証用コードをtitanic.pyとして同一階層に配置して実行。

$_HOME/titanic
             test.csv
             train.csv
             titanic.py

cd $_HOME\titanic
python titanic.py

処理結果として作成された「titanic_submit.csv」を
Kaggleのページよりアップロード

Learderボードに自分の名前が初登場です。
いやー。嬉しいですね。これから徐々にレベルアップしていきましょう。