はじめに
日経 xTECH ビジネスAI Advent Calendar 2019
AI道場「Kaggle」への道の4日目を担当させていただきます。
kaggleの発言権はステータスに依存する
kaggleではユーザーにランクが付けられています。
Progressionと呼ばれるものです。
進捗レベルというか、称号のようなものです。
このランクによって投稿したスクリプトに対する注目度や、発言の影響度合いが異なります。
登録時にはnoviceという称号が与えられ、所定条件を満たすとContributorになり、
そこからより上位ランクになりたい場合は他者からのイイネ評価を集める発言を行う、メダル獲得、等をしていかなければなりません。
kaggleは競争型コンペティションであり、ただメダルを集めるだけであれば、ギリギリまで自分の回答を提出せず、他者の試行結果を読み込み、より精度を上げてから投稿するのがいいのですが、
それだけではkaggleが繁栄しません。
kaggleは技術交流の場でもあります。
繁栄ために自分自身の作った回答や、回答に関する解説を投稿するなど、kaggle繁栄に貢献しましょう。
有用な情報を投稿したことでイイネ評価が集まり、自分のランクを上げることができます。
まず登録したら初心者noviceのままではつまらないので、Contributorを目指しましょう。
図解でなるべくわかりやすく、Contributorになる方法をまとめました。
早速登録
右上に青い登録ボタンがあります。
私は楽なのでgoogleアカウントで結び付けてログインしています。
Progression ランクを確認
ランクを確認するには上部タブの・・・上にマウスを置き、Progressionをクリックします。
下にスクロールしていくと、各ランクごとの達成条件が表示されます。
最初はNoviceにチェックマークがついていると思います。
Noviceの達成条件は登録なので、登録した時点でチェックがついています。
では今回めざす一つ上位のランクConstributorを見てみましょう。
達成するためのチェック項目は
・bioを更新する
・住んでいる場所を追加
・役職を追加
・組織を追加
・SMS認証を行う
・スクリプトを走らせる
・一つコンペに結果を提出する
・一つコメントを付ける
・いいね評価をひとつ付ける
となっています。
ひとつずつ確認しながらやっていきましょう。
bioを更新
そもそもbioって?
biographyの略で、経歴を書く場所だったりしますが自己紹介や趣味など書いている人もいます。
初期登録時は右上のログインボタンがあった部分に鳥さんの画像が表示されていると思います。
マウスを鳥さんの上に載せ、「my プロフィール」をクリックすると自分のプロフィール画面へ移動します。
メダルの下にbioが確認できます。
右側のeditをクリックして自己紹介を追加したらOKです。
Progressionにチェックがついていると思います。
住所・役職・組織を追加
さきほどbioを追加した図の右上に青色のedit profileボタンがあります。
ここを押すと
自分の情報を入力する場所が出てきます。
occupationに役職
organizationに所属組織
cityに住所
を入力しましょう。
これでさらに三つチェックが付きました。
ついでにSMS認証もしておきましょう。
少し下にスクロールするとSMSの認証リンクがあります。
認証が済んでいなければNot verifiedになっていると思います。
実際にコンペに提出してみよう
・スクリプトを動かす
・結果を提出する
・コメントを付ける
これを達成していきます。
ここが一番壁に感じるのではないでしょうか?
なんかめんどくさそう?
と感じる方のためにこの記事があります。
まず上部タブのコンペティションの左に検索マークがあります。
ここでtitanicと入力して検索します。
一番上にトロフィーマークがついている「titanic: Machine Learning from Disaster」というコンペティションが見つかります。
その下の「<>」マークは誰かが記述したスクリプトです。
titanicコンペティションを選択してみましょう。
青いボタンでjoin competitionがあるのでjoinします。
規約を読んで同意します。
joinがsubmitというボタンに変化しました。
これでデータを使ってスクリプトを書き、提出することが出来ます。
ボタン押してみましょう。
他の人が書いたスクリプト(note book)が表示されます。
new notebookボタンから新しく自分のスクリプトを作っていきましょう。
どの言語で分析を行うか選択します。
提出形式はnotebookかscriptかを選びます。
説明文をつけ足したり、部分的に実行するならnotebook
言語は好きなものを選択。
今回はpythonでなくRのnotebookにしときましょう。
デモコードとしてライブラリの読み込みとかファイルの読み込みとか説明が書いてあります。
とりあえずここはすべて消して以下のように打ち込んでみましょう。
notebookのセルの実行はjupyterと同じくshift + enterです。
このnotebookの作業ディレクトリはkaggleにあります。
ファイルはコンペティションによって多少違いはありますが「..input」に入っています。
inputの中のファイルを確認してみると、「titanic」というフォルダがありました。
titanicの中をさらに確認してみると3つのファイルがあります。
trainで訓練したモデルを使いtestを予測したらいいのです。
testには予想すべき変数"生存したかどうか"の列が抜けています。
これを予測する簡単なモデルを作りましょう。
write.csv関数で予測結果を提出します。予測データに必ず入力しなくてはいけない列名などがあります。
今回は乗客IDが該当します。
またwrite.csvは行名を書きだしてしまうのでエラーの原因になります。オフにしましょう。
作り終わったら右上のコミットボタンを押して提出しましょう。
特にエラーが出なければスクリプトが登録できたという事です。
over viewボタンを押して提出しに行きましょう。
orver viewで見える自分のスクリプトを下にスクロールしていくと、output filesの部分に自分の作った提出用csv
が確認できると思います。
いよいよ提出です。
completeになったら完了です。
スコアも確認できます。
ついでに自分のスクリプトに対して説明文などをコメントしてみましょう。
これでチェックが付きました。
最後の一つ イイネを使う
たとえば上部タブのdiscussionを押すと他の人が自分の書いたスクリプトや技術についての議論をしています。
中をいくつか覗いてみて面白かった内容にイイネしてみましょう。
図中の右上に111という数字がついています。
イイなと思ったら△ボタンを押して支持しましょう。
おめでとうございます
以上でランクアップです。
一通りkaggleの使い方を経験したということでランクが上がります。
登録して人のスクリプトを読むだけでなく、自分でコンペティションに参加して、結果を提出するプロセスを理解できた証です。
お疲れさまでした。
さあ、ここからが始まりです。
kaggleを楽しんでいきましょう。