kaggleとは
kaggleとは、企業やユーザが提供するデータを元に、予測モデルや分析を行うコンペティションを提供するプラットフォームです。
kaggleの始め方
- アカウント作成
kaggleを始めるにはアカウントを作成する必要があります。
アカウントを作成するにはメールアドレスを登録するか、
Facebook、Google、Yahooのアカウントと連携させることが可能ですのでお好きな方法を選択ください。
ちなみに筆者はFacebookアカウントと連携させています。
まず何をすればいいの?
-
挑戦するCompetitionを選ぶ
アカウントを作成したら早速挑戦するCompetitionを選びましょう。
初めはTitanic: Machine Learning from Disasterや、House Prices: Advanced Regression Techniquesがおすすめです。
チュートリアル用に用意されているコンペティションで多くの方が挑戦されています。ネットに多くの体験談や実践手法が載っていますし、kaggleのkernelにも挑戦者のコードが解説付きで載っています。 -
Competitionに挑戦するには:環境構築
Competitionに参加するには予測モデルを作成する環境を用意する必要があります。
環境はご自身で用意されてもいいですし、kaggleが用意しているkernelも活用できます。
kaggleのkernelを活用すれば面倒な環境を自身で構築することなくすぐに予測モデルの構築を開始でき非常に便利です。kernelの対応言語はPythonおよびRのようです。 -
Competitionに挑戦
環境が用意できたらCompetitionに挑戦していきましょう。Competitionに挑戦するときの基本的な流れは
「Competitionの目的を確認」→「データを確認」→「データの前処理」→「モデル構築・改善」→「予測」→「予測結果の提出」
の様になります。 -
行き詰まったら
kaggleでは先人のデータサイエンティストの方が自身の分析モデルを解説付きで公開してくれています。
特に上で紹介したチュートリアル用のCompetitionでは非常に参考になるkernelが公開されていますので、
参考にすることでデータサイエンスのノウハウを習得できると思います。
終わりに
kagglerとしてデータサイエンス業界を盛り上げていく人が増えれば幸いです。
質問や補足の要望などありましたらコメントください。