イベント内容の備忘録です。
イベント概要
【キカガク流AI入門セミナー】Kaggleではじめるデータサイエンス体験セミナーでプルス・ウルトラ!
自分の参加目的
- pythonの理解を深めたい
- kaggleがどんなツールか説明できるようになる
- kaggleを自力で使うことができる
→期待以上の持ち帰りがあった!
主催目的(私解釈)
- AIブームは過ぎて、研究フェーズから定着フェーズになっている世の中。キカガクさんは、そんな状況を踏まえて、AIをこれから定着させたいと思っている人・会社に、AIに関する情報や学習コンテンツを提供している
- kaggleの題材を使いながら、参加者がAIを導入するにはどんな手順が必要なのか、ざっとした流れをわかるようになること
セミナースタート!
kaggleとは
- **kaggle(カグル)**とはデータサイエンティスト・機械学習に関するコンペサイト。
- 特徴的なのは、企業が課題を出して、誰でも簡単に分析モデルを提出できること。そして、精度の高いモデルに対しては企業が買い取る+賞金がでる!
分析モデルを作ってkaggoleコンペに提出するまでの流れ
今回の題材は、映画にもなった「titanic」で、どんな特徴を持った人が生き残ったのかを分析するモデルを構築すること。
残っているデータとしては、年齢、チケット代、氏名、同乗者、性別など。
- kaggle >検索バー「titanic」>検証・テストデータをDL
- googleドライブに1のデータファイルをアップロード
- google colabにログイン。こちらの環境上でpythonを使い開発スタート
- googleドライブとgoogle colabを連携
- pythonで使う便利なライブラリをインポート
- データ読み込み
- データ数と特徴量を確認
- 欠損値(NULL)を確認(検証・テストデータ両方し、1/3欠損値ならNG)
- 欠損値を踏まえて、検証・テストデータを結合することに
- 特徴量(colamns)ごとに生存者との関係を見ていく(グラフを使う)
- データを整形
- (特徴量を見て、値を1くくりにできそうなものは合算。x軸を意味あるくくりでまとめていくイメージ)
- 文字列のcolamnsはダミー変数化(数値に変換)。
- カテゴリを変数化(例:女性は1、男性は0)
- 欠損値の補完
- 特徴量の選別が完了
- 選別結果を踏まえて、特徴量をいくつか選択。データセット作成
- 学習・検証・テストデータの3分割
- 特徴量の重要度を計測
- モデルを作成
- モデルの改良
- kaggleにアップロード。即時、モデル精度のランキング結果が表示される
豆知識
- google colab はGPU環境も1クリックで設定可能!
- Dataの項目意味がわからないときは、kaggle>Data で確認
感想
- pythonをプライベートで触っているくらいなので、kaggleというサイトの使い方がわかってラッキーだと思った。自分で作ったモデルの精度が良いものなのか客観的にわかるのは、ちょっとモチベーションが上がる。
- キカガクさんの講師の方の説明がわかりやすく、また、データの処理の部分のお話がとても面白くて、こういった話はネットで自分は拾えてこなかったので、面白いなあと感じた。
- データの項目の意味がわかると良い。「ドメイン知識」を持っていると良い。(例)タイタニック号の時代は、敬称で社会的地位が判別できた。それを知っていると、敬称と生存者の相関関係があるだろうと予想も立てられる。データがどんな意味を持つのかわかっていて分析するのが最もよいので、ビジネスでは業務を知っている人×データサイエンティストがタックを組んで、モデルを構築するのが良い。
- 欠損値を補完するときは、ヒストグラムの山が1つの時は平均値、山が2つなら中央値で埋めるのが良い
- 「相関関係が高い」を安易的に信じるのは危険。(例)温暖化もインターネット普及も時系列的には右肩上がり。X軸を温暖化、Y軸をネット普及と見た時に、数値としては相関関係が出ているように見えるが、実際には因果関係はあるのだろうか?
- いただいたコードの資料も、沢山のポイントが書かれていて、嬉しいお土産だった。