More than 1 year has passed since last update.

【Kaggle・データ分析入門者へ】タイタニックチュートリアルの解き方を比較してみた

Last updated at 2024-08-23Posted at 2019-02-18

kaggleやデータ分析の入門といったら

kaggleやデータ分析に挑戦したい人がまずやることといえば、タイタニックチュートリアルでしょう。ありがたいことに、検索すると良質な日本語記事がたくさん出てきます。それら記事を読むうちに、データ分析の基礎がわかってくるはずです。複数の方法を見ることで、共通の手法や独自の手法を意識できます。タイタニックチュートリアルに様々な角度からアプローチすることで、初心者はより深い理解が得られるはずです。

そこで、この記事では、タイタニックチュートリアルの複数の解き方を比較・整理します。

この記事の対象読者

・データ分析の基礎を知りたい
・Kaggleに挑戦してみたい
・機械学習の基礎は分かってきたから、使ってみたい

こんな希望を持つ方々向けの記事になっています。新しい分野へ入門するときは、入門書を3冊読めと言われます。いくつかの視点から情報を入れることは、バランスの良い入門になるはずです。

実際のコードなどは、各記事にアクセスして確認してみてください。

データの確認

まずは、どんなデータを分析することになるのか、確認をしてみましょう。

データを見ると、次のことがわかります。

数字ではなく文字列のデータがある
データがかけている場所がある

精度が高い分析をするために、これらをどう処理していくかが重要になります。いくつかのチュートリアル記事を見ながら、

欠損値の扱い
文字列データの扱い
特徴量の扱い
どんな機械学習アルゴリズムを使うか
などを比較しながら、勉強していきましょう。

1. 【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

欠損値

Ageには中央値を
Embarkedには、一番多いSを
Cabinは不使用

文字列から数値へ

Sex　　0、1
Embarked　　0、1、2

モデル作成

"Pclass","Age","Sex","Fare", "SibSp", "Parch", “Embarked”を特徴量とし、決定木を使用。

2. Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感

Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感

欠損値

生存が、性別、年齢と相関が高いことに注目。敬称”mr”、”master”、”miss”、”mrs”と年齢との関係を使い、欠けている年齢を推定する。

モデル作成

3. KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

欠損値

Ageには平均値を
Embarkedには平均を
Cabinは不使用

文字列から数値へ

Name　敬称によって分類
Ticket 先頭の文字、文字列の長さで分類
Cabin　先頭の文字で分類

新しい特徴量の追加

FamilySize　何人家族か
IsAlone　一人かどうか

モデル作成

ランダムフォレスト　グリッドサーチによるパラメーターの最適化あり

まとめ

欠損値の扱い
文字列データの扱い
特徴量の扱い
どんな機械学習アルゴリズムを使うか

これら注目ポイントを確認できたでしょうか？この流れに触れることが、データ分析への一歩になるはずです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

【Kaggle・データ分析 入門者へ】タイタニックチュートリアルの解き方を比較してみた

kaggleやデータ分析の入門といったら

この記事の対象読者

データの確認

1. 【Kaggle初心者入門編】タイタニック号で生き残るのは誰?

欠損値

文字列から数値へ

モデル作成

2. Kaggleのtitanic問題で上位10%に入るまでのデータ解析と所感

欠損値

モデル作成

3. KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

欠損値

文字列から数値へ

新しい特徴量の追加

モデル作成

まとめ

【Kaggle・データ分析入門者へ】タイタニックチュートリアルの解き方を比較してみた