Google Colaboratory で始める Kaggler 生活(データ入手と提出編)

Google Colaboratory で Kaggle コンペに参加したいときの





  • Google アカウント
  • Google Chrome



1. kaggle コマンド(api) のインストール

!pip install kaggle
ただしこれだけではまだ API は使えません。

!kaggle datasets list
## => Unauthorized: you must download an API key from https://www.kaggle.com/<username>/account
## => Then put kaggle.json in the folder /content/.kaggle

次に API key を入手します。

2. Kaggle API Key の入手

  • https://www.kaggle.com/<UserName>/account で自分のアカウントページを開いてください
  • 上記ページ内の Create New API Token をクリックして kaggle.json をダウンロードしてください
    • API Key が載ってるので、扱いには注意

3. Google ドライブに kaggle.json をアップロード

  • https://drive.google.com/drive/my-drive を開いてください
  • ドライブ上の好きな場所に kaggle.json をアップロードしてください
    • ドラッグ & ドロップで OK です

4. Google ドライブから Colaboratory 上に kaggle.json をダウンロード

# download API key from google drive
## Original: https://colab.research.google.com/drive/1eufc8aNCdjHbrBhuy7M7X6BGyzAyRbrF#scrollTo=y5_288BYp6H1
## When you run for the first time, you will see a link to authenticate.

from googleapiclient.discovery import build
import io, os
from googleapiclient.http import MediaIoBaseDownload
from google.colab import auth


drive_service = build('drive', 'v3')
results = drive_service.files().list(
        q="name = 'kaggle.json'", fields="files(id)").execute()
kaggle_api_key = results.get('files', [])

filename = "/content/.kaggle/kaggle.json"
os.makedirs(os.path.dirname(filename), exist_ok=True)

request = drive_service.files().get_media(fileId=kaggle_api_key[0]['id'])
fh = io.FileIO(filename, 'wb')
downloader = MediaIoBaseDownload(fh, request)
done = False
while done is False:
    status, done = downloader.next_chunk()
    print("Download %d%%." % int(status.progress() * 100))
os.chmod(filename, 600)
  • 初回実行時は Google アカウント認証ページが表示されます
    • 別タブで認証ページ開いてください
  • 認証したらコードが表示されるので、コードをコピーしてセルの下にある入力欄に入力してください
  • 上手く認証できればダウンロードされて Download 100%. と表示されます。

これで API が使えるようになります。 !kaggle competitions list などを打ち込んでみてください。
詳細は ここ で確認してください。

5. コンペに必要なデータのダウンロード

ここでは 3月26日現在開催中のコンペ "TalkingData AdTracking Fraud Detection Challenge" に必要なデータをダウンロードします。

5.1 コンペ一覧から該当コンペがあるか確認

# I want to search 'TalkingData AdTracking Fraud Detection Challenge'
!kaggle competitions list -s talkingdata
5.2 必要なデータのダウンロード


【注意】予めコンペへの参加 (コンペルールへの同意) は済ませてください


あと 33GB 使えます。

# download data for competition
## Before download data, you should accept competition rules at https://www.kaggle.com/c/<competition-name>/rules.
## Reference: https://github.com/Kaggle/kaggle-api
## When I ran it ended within 1 minute
!kaggle competitions download -c talkingdata-adtracking-fraud-detection

私が実行した時は 1分かからないくらいでダウンロードが終わりました。

残り 31GB になりました。

またダウンロードしたファイルは /content/.kaggle/competitions/ の下に配置されます。

# file path
!ls /content/.kaggle/competitions/talkingdata-adtracking-fraud-detection/ -a
6. コンペに提出



# submit
!kaggle competitions submit -c <competition-name> -f <submit.csv> -m "My submission message"


  • コンペむずかちいけどたのちいです
  • 一緒に参加してくれる方募集中です
    • twitter@fam_taro まで

