-
はじめに
Aidemy Premiumにて「データ分析コース」を6ヶ月受講いたしました。
Aidemy Premiumを受講したのは、データ分析、機械学習、Pythonをしっかりと学びそれを活かして仕事をしていきたいと思ったことが、きっかけでした。
実際に行ってみると難しく、理解を深めることができているのか疑心暗鬼になることが多々ありました。
今回記事を書かせて頂きますが、コード文や拙い内容となりますが宜しくお願いいたします。 -
実行環境
Kaggle Notebook -
目的
今回の目的は、二項分類を実行して、結婚している人は給与が $50,000 より大きいかどうかを予測することです。 -
使用するデータ
kaggle:Income Dataset
URL:https://www.kaggle.com/datasets/mastmustu/income
②婚姻状況×性別
次に年収に対して婚姻状況・性別で見ていきます。
③婚姻状況×性別×年齢
次に年収に対して婚姻状況・性別・年齢で見ていきます。
②婚姻状況×性別
次に年収に対して婚姻状況・性別で見ていきます。
③婚姻状況×性別×年齢
次に年収に対して婚姻状況・性別・年齢で見ていきます。
②婚姻状況×性別
次に年収に対して婚姻状況・性別で見ていきます。
③婚姻状況×性別×年齢
次に年収に対して婚姻状況・性別・年齢で見ていきます。
-
まとめ
各モデルの予測結果の正解率を見てみると、婚姻状況のみ・婚姻状況と性別の結果は76~77%の正解率になったが、ロジスティック回帰モデルの婚姻状況と性別・年齢だと、73%に低下しました。
また、婚姻状況・性別・年齢で相関係数を出した際、「年齢と年収」「教育と年収」で正の相関がみられました。しかし、「婚姻状況・年齢」「婚姻状況・収入」「婚姻状況・性別」から負の相関がみられました。
この結果から、収入に関係することは、年齢と教育が観察されたことから、自身が考えていた結婚が年収に関係がないことがわかりました。ですが、今回比較する要因がすくないため他の観点からみると違う結果になると思われます。今後は、他の要因も含めてどんな人ほど年収が高くなるのかを予測するモデルを構築したいと思いました。