#はじめに
初めてKaggle(カグル)のコンペに参加してみたお話です。
最初に「Titanic(タイタニック)」のコンペで試してみます。
#目次
1.Kaggleとは
2.Kaggleに会員登録する
3.Titaticコンペに参加する
4.コードを書いてみる
5.学習結果を提出してみる
6.まとめ
参考
#1.Kaggleとは
カグルと読みます。
Kaggleはアメリカに本部を置く、世界中のデータサイエンス・機械学習に携わる人が参加するコミュニティーサイトです。
Kaggleの目玉と言えるのがコンペです。
コンペは参加者がデータ分析の力を競い合う競技です。
最終的にはコンペに参加して競ってみたいですが、チュートリアルもあるようなので、まずはチュートリアルをやるところから進めたいと思います。
#2.Kaggleに会員登録する
https://www.kaggle.com/
Kaggleのサイトで会員登録します。
すでにGoogleアカウントがあるせいか、「Welcome sudominoru」と表示され、すでに会員登録されている状態でした。
「Edit Profile」から写真をアップロードし、「City」を登録しました。
#3.コンペに参加する
kaggleに挑戦したい人がまずやってみるのは、「タイタニックチュートリアル」とのことです。
このコンペに参加してみます。
画面上部の「Competitions」を選択すると
Our Titanic Competition is a great first challenge to get started.
(タイタニックコンペティションは、開始するのに最適な最初の挑戦です。)
と言われ、一番上に Titanicが表示されます。クリックしTitanicを選択します。
「Join Competition」をクリックし、Titanicコンペに参加してみます。
Please read and accept the competition rules
(コンペルールを読んで同意してください)
とこのとなので、ルールを確認してから同意します。
これで参加できました。
#4.コードを書いてみる
kaggleでは、コードを書く環境が用意されています。
さっそく書いてみましょう。
「Notebooks」から「your Work」をクリックし「Create New Notebook」をクリックします。
言語の選択とタイプ(「Notebook」か「Script」か)を選択します。
言語は「Python」、Typeは「Notebook」を選択しました。
「Notebook」は「Jupyter Notebook」のようなもので「Script」は「Spyder」でコードを書くイメージだと思います。
普段は「Spyder」でコードを書いていますが、Kaggleでは見てもらうことを意識し、説明文を書きつつコードを書きたいので「Notebook」で進めます。
上の画像のように「Jupyter Notebook」のような画面が表示されます。
右側のinputディレクトリに、このコンペで利用する学習用データ(train.csv)、検証用データ(test.csv)があります。
「gender_submission.csv」は後で説明しますが、コンペ提出用のサンプルデータです。
試しにサンプルコードをそのまま実行するとファイル名が出力されます。
これでコードを書く準備が整いました。
#5.学習結果を提出してみる
先ほど、「gender_submission.csv」は、コンペ提出用のサンプルデータと言いました。
中身を見てみると「test.csv」と同じPassengerIdがあり、件数も同じです。
流れとしては、以下になります。
1.「train.csv」を使って学習する
2.「test.csv」を使って学習結果を検証する。検証結果を「gender_submission.csv」に出力する
3.「gender_submission.csv」を提出する
試しに、「gender_submission.csv」をそのまま出力してみましょう。
# Any results you write to the current directory are saved as output.
# gender_submission.csvを読み込む
# Load gender_submission.csv
df_gender_submission = pd.read_csv('/kaggle/input/titanic/gender_submission.csv')
# gender_submission.csvをカレントディレクトリに書き込む
# Write gender_submission.csv to the current directory
df_gender_submission.to_csv('gender_submission.csv', index=False)
上記のコードを追記し、右上の「Commit」をクリックし実行します。
しばらくすると実行結果が表示されます。「Open Version」をクリックします。
結果の内容が表示されます。
画面下の方の「Output Files」に「gender_submission.csv」が出力されたことが確認できます。
「Submit to Competition」をクリックし、提出してみましょう。
「Leaderboard」に遷移し、結果が表示されます。
Scoreは「0.76555」になっています。
正解率は「76.5%」だったということです。
「Jump to your position on the leaderboard」で自分の順位に遷移できます。
#6.まとめ
Kaggleの使い方がなんとなく分かりました。
次回は、Titanicで学習を進めたいと思います。
#参考
はじめてのKaggleチュートリアル【初心者入門】
https://note.com/toshioakaneya/n/na582cb273153
#履歴
2019/12/08 初版公開