More than 3 years have passed since last update.

ロジスティック回帰を用いた予測

Last updated at 2020-09-08Posted at 2020-09-08

　JGSSデータを使って機械学習の勉強をしました。

(大学で課題として出したものを少し書き換えました。)

データ：JGSS
＊学術利用のみが可能らしいです

テーマ

大きなテーマとして結婚生活にフォーカスを当てました
先行研究として挙げられていた離婚の要因とされているものを変数としてロジスティック回帰を行いました。
以下がコードです

title

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

y=data['domarry']
features=['ageb','sexa','szttlsta','incsp','incself','incpar','chiled','op5schpf','agegrd',]
X=data[features]
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size = 0.2, random_state = 0) 

lr = LogisticRegression() 
lr.fit(X_train, Y_train)

いくつかの変数は連続値であったためワンホットエンコーディングや離散値に直しています。
上記のコードでは精度が80％であり、そこそこの精度でした。
普段はKaggleできれいで要素も少ないデータで勉強していましたが、今回JGSSのデータはとても要素が多く、要素選びが大変でした。。。

補足

この回帰の前にいろいろ処理やカイ2乗検定などをしているので
今後追記していきたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up