Kagglerへの道！

Last updated at 2018-12-17Posted at 2018-12-17

Kaggleを始めた理由

ズバリaiの勉強がしたかったのですが、下記の理由で散々挫折。
１，以前流行ったTensorflowをやってみた。
→高マシンスペックがマスト。（当時ビットコインのせいでグラボも高止まりで手が出ず。。。）
　また、学習データが必要、検証結果のチェックも大変。
　学習と言うよりは、子供のお世話？？なんか違う。。。

２，SFDCのAIのAPIを使ってみた。
→いい感じで動くけど、ロジックが非公開。
　なので、結果揺れの原因もわからず、これではただの利用者でしかない。。。
　（SFDC派の人に誤解無いように、ワタシ的に合わなかっただけです。すみません。）

自分なりにaiというか、機械学習と言うか、ディープラーニングと言うか色々と整理してみるとやりたいことはデータを使って新しい気づきがどう生まれるかを知りたかったです。
そこで出会ったのが、Kaggleです！

Kaggleとは

ちょっと前まではあまり日本語サイトがなかったのですが、最近はたくさんです。
あまり知見がないので、サラッと紹介すると、

データがたくさんある！

夜空の写真、NBA試合の予想から、パン屋のレシート情報まで。
著作権にドキドキしないデータが沢山！

答えがある？

タイタニックの生存の課題がよくサンプルでありますが、コンペ形式で答えに近いものがある。

データセット、APIが公開されていてChromeBookでも開発可能！

いつもコアな開発はWindows OSやMac OSがマストでした。。。
パケットも節約しないといけないのに。。。
クライアントを経由しないの最高です！

kaggleを始めるには

まずはアカウント登録

Kaggleのアカウント登録です。
英語のみですが、恐れることはありません！

なぜか、アイコンは可愛くないアヒル？です。

つぎは開発環境の用意

私は最終的に、Google　Colaboratoryを採用しようと思います。

ちょっと脱線

最初はAWS＋Dokkerで環境作って試しました。
理由は、「Dokker知らないとやばい」って２０１７年のトレンドまとめにあったので。
確かに、これは今の仕事のいろんな課題を解決してくれるメシアとなりそう。
そのときの参考は下記。
https://qiita.com/NewGyu/items/d0b0d6074e13acd51f3e

でも、Dokkerはまたしてもマシンスペック問題が発生。
安価なAWSインスタンスではおっそい。。。

そこで見つけたのが、Google　Colab！

Google　Colabとは

端的にまとめると、Google Colabとは、Jupyter Notebookを必要最低限の労力とコストで利用でき、ブラウザとインターネットがあれば今すぐにでも機械学習のプロジェクトを進めることが可能なサービスです。
https://www.codexa.net/jupyter-lab-beta-review-ml-ide/

とても、簡単・早い・安いの３拍子です！！

ただ、ちょっと癖がある。
最低限のLinuxの知識がないとわからない。
いまいち内部構成がよくわからないので、パーミッションとかにハマるとTeratermでつなぎたくなるけど、つなげられないジレンマ。
と戦いながら進めます！

前置きが長くなりましたが、ここからKaggleに提出までをサラッと紹介します！

データセット読み込み！

APIでGoogle　Colabにファイルをロードします。
そして、ディレクトリを作成し、kaggleのモジュールといいますかファイルをインポートします。

ディレクトリにパーミッションを割り当てたり、ちょっと好奇心でechoしてみたり。

提出！

# submit
!kaggle competitions submit -c <competition-name> -f <submit.csv> -m "My submission message"

結果をクライアントを経由せずにアップロードできるのはとても幸せです。

結果

これからに期待ということで、結果ランクは内緒です。
年末年始の宿題にしようかな。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up