LoginSignup
5
13

More than 5 years have passed since last update.

Kaggle入門者へ タイタニックチュートリアルを比較してみた

Posted at

kaggle入門といったら

kaggleに挑戦したい人がまずやってみるものといえば、タイタニックチュートリアル。ありがたいことに、ネットで検索をすると良質な日本語記事がたくさん出てきます。これら記事を読むうちに、データ分析の基礎がわかってくるはずです。それらを読むと、共通の手法や独自の手法が見てとれます。タイタニックチュートリアルに様々な角度からアプローチすることで、初心者はより深い理解が得られるはずです。

実際のコードなどは、各記事にアクセスして確認してみてください。

この記事の対象読者

・データ分析の基礎を知りたい
・Kaggleに挑戦してみたい
・機械学習の基礎は分かってきたから、使ってみたい

こんな希望を持つ方々向けの記事になっています。新しい分野へ入門するときは、入門書を3冊読めと言われます。このように、いくつかの視点から情報を入れることは、バランスの良い入門になるはずです。

データの確認

まずは、どんなデータを分析することになるのか、確認をしてみましょう。
タイタニック_データ.png
データを見ると、次のことがわかります。
・数字ではなく文字列のデータがある
・データがかけている場所がある

精度が高い分析をするために、これらをどう処理していくかが重要になります。いくつかのチュートリアル記事を見ながら、
・欠損値の扱い
・文字列データの扱い
・特徴量の扱い
・どんな機械学習アルゴリズムを使うか
などを比較しながら、勉強していきましょう。

1. 【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

・欠損値
Ageには中央値を
Embarkedには、一番多いSを
Cabinは不使用

・文字列から数値へ
Sex  0、1
Embarked  0、1、2

・モデル作成
"Pclass","Age","Sex","Fare", "SibSp", "Parch", “Embarked”を特徴量とし、決定木を使用。

2. Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感

Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感

・欠損値
生存が、性別、年齢と相関が高いことに注目。敬称”mr”、”master”、”miss”、”mrs”と年齢との関係を使い、欠けている年齢を推定する。

・モデル作成
SVM

3. KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)
・欠損値
Ageには平均値を
Embarkedには平均を
Cabinは不使用

・文字列から数値へ
Name 敬称によって分類
Ticket 先頭の文字、文字列の長さで分類
Cabin 先頭の文字で分類

・新しい特徴量の追加
FamilySize 何人家族か
IsAlone 一人かどうか

・モデル作成
ランダムフォレスト グリッドサーチによるパラメーターの最適化あり

まとめ

・欠損値の扱い
・文字列データの扱い
・特徴量の扱い
・どんな機械学習アルゴリズムを使うか

これら注目ポイントを確認できたでしょうか?
この流れに触れることが、データ分析への一歩になるはずです。

5
13
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
13