背景
機械学習を勉強しようとした際、kaggleが良いと聞いたため、色々調べていたら以下の記事が...
https://qiita.com/rinn650/items/51ed74616ac42b708264
(わかりやすいですありがとうございます!)
上記記事より、とりあえずGetting startedをすればいいと思い、やろうと思ったのがきっかけ。
また、Qiitaを活用することで自身のモチベーションを上げていこうというのも狙い
kaggleのカテゴリについて
上記記事より、kaggleは以下のカテゴリに分類されていることがわかった。
- Featured
- Research
- Getting Started
- Playground
- Recruitment
- Masters / Limited Participation
- Annual
※詳細は割愛。
Getting startedを整理
とりあえず初心者向けのGetting Startedを始めようと思ったところ、いくつか課題が用意されていた。その整理をする。
Titanic: Machine Learning from Disaster
- 色々な人が記事を書いている登竜門的コンペ
- タイタニック号の乗客の生存予測
- 学べるスキル1:バイナリクラシフィケーション
- 学べるスキル2:PythonもしくはRの基礎
- 生死を0 or 1で出力させて、生存を予測
House Prices:Advanced Regression Techiniques
- 家の価格を予想する問題
- 回帰問題の一つ
- 様々なデータから家の価格を推定するモデルを作成
- 学べるスキル1:特徴量選択のための創造的な技術
- 学べるスキル2:ランダムフォレストや勾配ブースティング法のような回帰モデル
※学べるスキル1はこの課題は大量の特徴量があり、どの特徴量を使えば家の価格推定のモデルに貢献できるかがミソな部分。その特徴量を理解するのが学べるということ(だと理解しました)
Digit Recognizer
- 手書き文字を認識する問題
- 画像解析問題の一つ
- 大量の手書き文字データを入力データとし、識別させるためのモデルを構築する。
- 学べるスキル1:シンプルニューラルネットワークを含んだコンピュータビジョン
- 学べるスキル2:SVMやK-nnのようなクラス分類手法
※つまりMNIST
その他
- Facial Keypoints Detection
- First Steps with Julia
- Bag of Words Meets Bags of Popcorn
- Data Science London + Scikit-learn
- Just the Basics - Strata 2013 After-party
- Just the Basics - Strata 2013
計6つは、カーネルがないため参考になるコードがなかった。。。
タイタニック、家の価格予想、画像の文字認識の三つをやるだけでも以下の技術が学べる
- バイナリクラシフィケーション(つまり二値化)
- PythonもしくはRの基礎
- 特徴量選択のための機械学習に対するマインド
- ランダムフォレストや勾配ブースティングといった回帰モデル
- コンピュータビジョン(ニューラルネットを含む)
- SVMやk-nnといった分類期
あとがき
今活躍しているデータサイエンティストも最初は基礎から始めたはず(たぶん)。
自分もデータ分析な人間になるべく、一歩一歩がんばろう。