ColabからKaggleのデータセットを使用する方法をメモしておきます。
事前にやること
- KaggleのアカウントページのAPIから
kaggle.json
をダウンロードする。 - ダウンロードしたファイルをColabにアップロードする。
Colab上でコマンド実行
Kaggle API with Colabを参考にしました。
まず kaggle パッケージをインストールします。
ちなみに Colab で コマンドを使用する時は、 !cd
とか!ls
のように先頭に!をつけて実行します。
!pip install kaggle
次に Kaggle API をセッティングします。
from googleapiclient.discovery import build
import io, os
from googleapiclient.http import MediaIoBaseDownload
from google.colab import auth
auth.authenticate_user()
drive_service = build('drive', 'v3')
results = drive_service.files().list(
q="name = 'kaggle.json'", fields="files(id)").execute()
kaggle_api_key = results.get('files', [])
filename = "/root/.kaggle/kaggle.json"
os.makedirs(os.path.dirname(filename), exist_ok=True)
request = drive_service.files().get_media(fileId=kaggle_api_key[0]['id'])
fh = io.FileIO(filename, 'wb')
downloader = MediaIoBaseDownload(fh, request)
done = False
while done is False:
status, done = downloader.next_chunk()
print("Download %d%%." % int(status.progress() * 100))
os.chmod(filename, 600)
Download 100%.
無事ダウンロード完了です。これで、Colabから Kaggle APIが使えます。
コンペのページからデータをダウンロードしてみます。赤枠の部分をそのままコピーしてコマンドラインに貼り付けます。

!kaggle competitions download -c web-traffic-time-series-forecasting
Downloading train_1.csv.zip to /content
98% 100M/102M [00:00<00:00, 78.9MB/s]
100% 102M/102M [00:00<00:00, 111MB/s]
Downloading key_2.csv.zip to /content
91% 92.0M/101M [00:00<00:00, 85.9MB/s]
100% 101M/101M [00:00<00:00, 115MB/s]
Downloading train_2.csv.zip to /content
87% 130M/150M [00:01<00:00, 67.9MB/s]
100% 150M/150M [00:01<00:00, 94.2MB/s]
Downloading key_1.csv.zip to /content
97% 93.0M/96.0M [00:00<00:00, 64.4MB/s]
100% 96.0M/96.0M [00:00<00:00, 110MB/s]
Downloading sample_submission_2.csv.zip to /content
91% 62.0M/68.2M [00:00<00:00, 55.1MB/s]
100% 68.2M/68.2M [00:00<00:00, 91.4MB/s]
Downloading sample_submission_1.csv.zip to /content
76% 50.0M/66.0M [00:00<00:00, 43.3MB/s]
100% 66.0M/66.0M [00:00<00:00, 79.8MB/s]
ダウンロード完了です。
zipファイルのデータは unzipします。
!unzip train_1.csv.zip -d train_1.csv
!unzip key_1.csv.zip -d key_2.csv
これで、Colabから kaggleの csvデータが使えるようになりました!
他にも Kaggle APIには便利な機能が色々あるみたいなので、詳しくは GitHubにあげられている Kaggle APIのREADMEをご参照ください。↓
https://github.com/Kaggle/kaggle-api