More than 3 years have passed since last update.

データ分析　タイタニック号3

Posted at 2020-10-31

Aidemy　2020/10/31
#はじめに
　こんにちは、んがょぺです！バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます！
　今回は、「データ分析　タイタニック号」の3つ目の投稿になります。どうぞよろしくお願いします。

＊本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。

今回学ぶこと
・⑤問題のモデル化、予測、解決

#モデルの作成
##使用するアルゴリズムの選択
・Chapter2でデータ処理が完了したので、ここからは実際に__モデルにデータを渡して予測し、解決するところまでを行う__。
・はじめに、どのアルゴリズムでモデルを作成するか__を決める必要がある。予測問題には「分類」と「回帰」があり、前者はデータをクラスに分けて渡されたデータがどの「クラス」に属するかを予測するもので、後者はデータの「値」を予測するものである。
・今回のタイタニック号の予測問題は__Survivedが0か1かを「分類」するもの__である。使用するアルゴリズムは、「ロジスティック回帰」「SVC」「k-NN」「決定木」「ランダムフォレスト」__によるモデルを作成する。

##データの準備
・モデルに渡す__「X_train」「y_train」「X_test」を準備する。いつもはsklearn.model_serectionの__train_test_split()を使っているが、今回は自分で分割する。
・X_trainは__Survived以外のtrain_df、y_trainは__Survivedのみのtrain_df、X_testは__PassengerId以外のtest_df__を代入すれば良い。

・コード

##ロジスティック回帰
・（復習）__ロジスティック回帰__は__シグモイド関数__を使って二値のクラス分類を行うものである。シグモイド関数は__0から1の間で値を取る関数__である。__LogidticRegression()__を使ってモデルを作成する。
・今回は目的変数である__Survivedが0か1か__を説明変数__AgeやPclass__などを使って予測する。

・また、モデルに渡すデータであるが、ロジスティック回帰のみ、X_trainとY_trainをさらに8:2の割合で訓練データとテストデータに分けたものを使用する。

・コード（結果も含む）

##どの説明変数（特徴量）が結果を左右しやすいのかを可視化
・__「どの説明変数（特徴量）が結果を左右しやすいのか」_を知るには、目的変数と説明変数との間の__偏回帰係数__を計算する。値が大きいほど結果を左右しやすい__と言える。
・偏回帰係数の計算は、「model.corf」__で行う。DataFrameで扱いたいので、train_dfのcolumnsを行（"Feature"）に持つDataFrameを作成し、新しい列として"Partial regression coefficient"を作り、偏回帰係数をそこに格納する。
・DataFrame作成時にdelete(0)としているのは、偏回帰係数の計算の過程で0が出てくると計算ができず、NaNになってしまうからである。

・コード

・結果

##SVM
・（復習）__サポートベクターマシン（SVM）__を使って分類するアルゴリズム。分類の境界線が他クラスと最も距離が遠くなるように引かれるため、汎化されやすい。__カーネル法__によって非線形から線形に変換しているので、非線形データにも対応できる。線形SVMは__LinearSVC()__で、非線形SVMは__SVC()__で使用する。

・コード(LinearSVCも同様に作成すればOK　今回の結果は「83.84」)

##k-NN
・（復習）__k-NN__は、予測データと類似している教師データをk個抽出し、最も多かったクラスを予測結果として出力するアルゴリズムである。__学習コストが0__であり、__予測精度が高い__ことが特徴である。__KNeighborsClassifier()で使うことができ、抽出するデータの個数kは引数に「n_neighbors」__を指定することで設定できる。

・コード

##決定木
・（復習）__決定木__は、データから抽出されたルールが木構造で表されるので、このような名前になっている。ルールとは、例えば説明変数Ageが1（16才〜32才）ならPclassについて判定する、といったものである。これらが進んでいくと最終的にはクラスを分類することができる。__DecisionTreeClassifier()__で使用することができる。

##ランダムフォレスト
・（復習）__ランダムフォレスト__は__多数の決定木を構築__し、それぞれの結果のうち最も多数のものを最終的な結果として出力するアルゴリズムである。このような複数の分類器を使用する学習を__アンサンブル学習__という。__RandomForestClassifier()で使用でき、決定木の個数は引数に「n_estimators」__を指定することで行える。

#モデルの評価
・以上で作成したそれぞれの__モデルの精度（acc）__をDataFrameで一覧にすることで、どのモデルを使用するのが良いかを決める。

・コード

・結果

##モデルの保存
・前項の結果で見た通り、決定木とランダムフォレストを使ったモデルの精度が最も高い__ことがわかった。今回はよりモデルの汎化が期待できそうな__ランダムフォレストのモデルを使用する__ことに決め、このモデルをcsvファイルで保存する。
・csvファイルの書き出し、保存は「to_csv」__で行える。ファイルには、'PassengerId'としてtest_dfのPassengerIdを格納した列と'Survived'としてランダムフォレスト(決定木)の予測結果'Y_pred'を格納した列を持つDataFrameとしてファイルを作成する。

・コード（ファイルパスは架空のもの）

#まとめ
・前回までで作成したデータを__train_X,train_y,test_Xに分割する__。これらのデータを使ってモデルを作成する。
・__「どの説明変数（特徴量）が結果を左右しやすいのか」__を知るには、__偏回帰係数__を計算し可視化すると良い。
・それぞれのモデルのscoreから、どのモデルの__精度（acc）__が最も高いかを比較し、一番高かったモデルはcsvファイルで__保存__する。

今回は以上です。最後まで読んでいただき、ありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

データ分析 タイタニック号3

データ分析　タイタニック号3