Kaggle

kaggleでデータサイエンスの問題に挑戦してみよう

この投稿は 関西オープンフォーラムのセミナー企画 kaggleでデータサイエンスの問題に挑戦してみよう のアウトライン資料です。

このセミナーの目的

  1. kaggle のコンペに問題予測結果を投稿し,kaggleがどのようなものか雰囲気を感じとってもらうこと
  2. 1. の先にはどのような世界があるか,を示すこと

聴衆ターゲット

  • データサイエンスに興味がある方
  • kaggleに興味はあるがまだ何も手をつけることができていない方
  • kaggleをちらっと見てみたが自分の好みと違うかなと感じて離れた方

なぜkaggleの利用を勧めるのか?

データ分析の

  • モチベーションを絶やさないためのシステムがよくできている
    • 漸次的な進歩を誘導するシステム
    • 賞金や称号など
  • 実践的な情報が集まっている

ハンズオンの概要

ハンズオン参加者のみなさんに行っていただきたいことはチェックボックスにしています。

  1. kaggle概要 (約5分間)

    • kaggle ユーザ登録
    • kaggle の menu 各項目を回り,軽くその意味を說明
  2. Titanic: Machine Learning from Disaster への挑戦 (約10分間)

    • このコンペの目的の說明
    • コンペ各項目(Kernels, Discussion, Leaderboard, Rulesなど)の說明 (例 Rules における private sharing とは, など)
    • Kernel の作成
  3. Titanicのカーネルの說明 (約20分間)

    • pandasを使ったdataの探索の仕方
    • seabornを使ったdataの可視化の仕方
    • scikit-learnを使った「回帰モデルの作成」と「問題の結果の予測」
    • 予測結果のsubmit
  4. Titanicの先をどうする? (約5分間)

  5. 質疑というか雑談 (約5分間)