どうも、AIRS-LabでKaggleをやっています。
データ分析コンペというとJupyter Notebookを使っている人も多いと思います。
Jupyter Notebookを使っていて、うまくファイルを読み込めない時ありませんか?(やり方知らないだけですが・・w)
ドラッグアンドドロップで同じパスに入れられたらいいのに。。。と思い、Google Colaboratoryに変更しました。
2ヶ月ほどGoogle Colabで快適ライフを送っていたのですが、先日ある問題に直面してしまいました。。。!
(Google Colabの利点としては、フォルダにドラッグ&ドロップしたら同じパスにあるものとして使える。)
なんと、train.csvのデータを全て読み込んでくれないではありませんか!!!(本当は80万行以上あるのに・・・)
データが大きすぎると一部しか読み取ることができなくなるようなので、Kaggle内で分析できるよう調べたので、その方法を記録しておきます。
まずは、KaggleのページにGo
左上のcreateのボタンを押すと、こんな感じで初期のコードが記述されています。
デフォルトでnumpyとpandasのライブラリがインポートできるようになっています。
この段階では、まだtrain.csvもtest.csvもインポートされていません。
右側のAdd dataを押すと以下のような画面になるので、Competition Dataのタブにして検索で「tabular playground series」と検索すると該当のコンペが表示されるので、addを押します。
すると右側のinputのところにデータセットが入っていることがわかります。
パスの書き方に少し注意が必要ですが、こんな感じできちんと848,835個のデータが入っていることがわかりました。
データ分析頑張っていきましょう!