前回までと反省
前回までは以下を参照
https://qiita.com/takinou/items/5cd236ef05c68304f09b
データ数確保のために、1990年とか2000年とか、古い時期のデータも入れていたのだけど、未開設の駅もそのまま放り込んでいたのでよくないと思った。
そこに何の路線も通っていないよ、だから利用者0人だよ、と言うのは正しいには正しいんだけど、データ的にはゴミじゃね? と言うことで除外することにする。
コードはここ。
[https://github.com/takinou/station_sim/blob/master/2_simple_linear_regression_nonzero.ipynb]
前回と変えたところ
路線数が非0のデータだけを元データとして採用する。
Nagoya_Station_data=Nagoya_Station_data[Nagoya_Station_data['lines']!=0]
あとは前回と同様に、単回帰分析をしてみる。
結果
相関係数
np.corrcoef(nz_datas['lines'], nz_datas['josha_num'])
array([[1. , 0.85435272],
[0.85435272, 1. ]])
0.85だった。
前回は0.82なのでちょっと改善
決定係数
決定係数は0.73だった。
前回は、0.68だったので、ちょっと改善。
やっぱ適当なデータは入れるべきではないなぁ。