Kaggle 綺麗にコードを書き提出までの道のり

Last updated at 2022-03-29Posted at 2021-12-24

自己紹介

私はKaggleであまり結果を残せていない修士一年です(私のkaggleアカウント).
実装もあまり得意な方ではなく,少しずつ理解に努めています.

本日は,

初学者がKaggleを継続的に参加するための励みになれば良いと思い記事を書きます.

結論から言うと,自作moduleを作成することだと考えました.

0. 私(atcoder茶色レベル)にとってのKaggle

私のCodingの経験はインターンや授業,趣味,競技プログラミングくらいの中でKaggleをやろうとする場合のハードルは少し高いように感じました.

理由としては,以下があります:

notebookでのcode管理が手間. (あ)
modelの管理を行うのが手間. (い)
GPUの関係でlocalで作業がしづらい. (う)
使用するライブラリの動作を覚えるのが手間. (え)

この観点から,どのコンペにも参加しやすくなるための自作moduleをコンペへの参加を通してupdateしながら,作成するのがベストではないかと感じました.

0. (あ) notebookでのcode管理が手間

　これは,notebookが長くなると出力とコードが一対一で見れないことがあるため,なるべく関数やクラスを事前に作って実装できるようにすれば良いと思います.

0. (い) modelの管理を行うのが手間

　これは,毎回実装していると非常に手間であり,どこにモデルが保管されているかも管理しづらい状況であると感じているため,wandbというものを使用します.これを使用することでcloud上にモデルのweightを保存することができ,APIでいつでも取り出すことができます.

0. (う) GPUの関係で**localで作業がしづらい.

　これは,localのVS-codeで自作モジュールを管理することで実装できます.またwandbなどの実験管理を使ったり、kaggleのnotebookを使用して実行をしたりするため、使用データの容量やモデルの容量はlocalの容量に置く必要はありません。
　

0. (え) 使用するライブラリの動作を覚えるのが手間

　これは,調べたり覚えたりすれば良いのですが,毎回調べるのは面倒であるためある程度自作のmoduleを作成することで学習や作業コストを減らせると考えます.

1. 今回参加するコンペ

実際に自作moduleを作成しながら,コンペに参加してみます.

Sign Language MNIST : こちらのコンペに参加していきたいと思います(内容としてはハンドサインのアルファベットの識別です).

また,今回は自作moduleをどのように作成するかをメインと置いているため,
モデルや可視化は

CNN using Keras(100% Accuracy) by MADHAV MATHUR
を参考に,

コードの書き方は

を参考にしました.

2. Updateを重ねるためのmoduleとは

今回参加するコンペに作成した関数やクラスが次回に参加するためのコンペに必要であるかどうかは不明です.

そのため,実質的にUpdateを重ねることは不可能な気がします.

そのため,現代回では後のアップデートを意識せず,お気持ちとして関数やクラスの前に今回のコンペという意味づけをするために,# handとコメントを残しておきます.

そして他のコンペに参加する際には,cp my_module/ new_moduleといった形でcopyをしてから必要なもの追加したり削除したりして,そのコンペ用にmoduleを作り直すことを行う必要があります.

しかし,将来的に画像系のコンペか自然言語系のコンペかといった形で,自分なりの共通点がわかり任意のコンペ用のmoduleを作ることができるかもしれません（総称型をイメージ？）.

3. 自作moduleをkaggleにあげる.

3.A. notebookの右のところから +Add data を押す.

3.B. Uploadする

3.C. 名前を決める

Kaggleのnotebookにおける,file構成を見てみましょう(!tree ..).

..
├── input
│   ├── sign-language-mnist
│   │   ├── amer_sign2.png
│   │   ├── amer_sign3.png
│   │   ├── american_sign_language.PNG
│   │   ├── sign_mnist_test
│   │   │   └── sign_mnist_test.csv
│   │   ├── sign_mnist_test.csv
│   │   ├── sign_mnist_train
│   │   │   └── sign_mnist_train.csv
│   │   └── sign_mnist_train.csv
│   └── tmptmptmp
│       └── my_module
│           ├── 1_hand.md
│           ├── README.md
│           ├── __init__.py
│           ├── config.ini
│           ├── model.py
│           ├── preprocessing.py
│           ├── requirements.txt
│           ├── sam.py
│           ├── set_seed.py
│           ├── train.py
│           └── visualize.py
├── lib
│   └── kaggle
│       └── gcp.py
└── working
    └── __notebook_source__.ipynb # 今作業しているnotebook

ここのworkingにsubmission.csvなどが作成されるようになってます.

ここからは実際のコンペのデータセットを確認していきたいと思います.

4. 可視化 A-visualize.ipnb

データを実際に可視化することを行います.
また,それと同時にvalidとtrainで分けた際の画像も表示させます.

また,labelの分布も確認します.

訓練データとテストデータ(普通はない可能性が高い)のhistgram

5. 訓練 B-training.ipynb

深層学習(CNN)で学習する際はGPUを用いるため,一般人の私にとってはするのは大変な気がします.

そのため,まずはtrainとvalidを一度分けて実装をしていきます.
そして良いモデルだと判断されたモデルを用いてCVを実装します.

ただ,Kaggleは時間制約があるため,あまり実装経験がない場合の人にとってはじめに作るアーキテクチャは(時間があれば論文や)Discussion,Codeを参考にするのが良いと思います.

また,慣れていない時期に自作のmodelを作成する場合はサイズが異なっている可能性があるので,試しでまず実際に動くか実装する必要があると思います.

my_models.set_seed(42)
for _ in range(1):
    for one_iteration in trainloader:
        xs,ys=one_iteration
        break
print(xs.shape) # torch.Size([64, 1, 28, 28])
m=nn.Sequential(nn.Conv2d(1,75,3,stride=1),nn.ReLU())
inp=m(xs) # torch.Size([64, 75, 26, 26])
print(inp.shape)