pythonのデータ分析コードメモ
#下準備
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#CSVファイルの読み込み
df = pd.read_csv('/content/insurance.csv')
#データセットの読み込み(SKlearnのデータセット)
from sklearn.datasets import load_boston
dataset = load_boston()
x, t = dataset.data, dataset.target
columns = dataset.feature_names
#ヒストグラムの描画
plt.hist(df['bmi'])
#データ分け
from sklearn.model_selection import train_test_split
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.3, random_state=1)
#重回帰分析
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x_train, t_train)
#偏回帰係数の確認
model.coef_
#モデルの検証
print('train score : ', model.score(x_train, t_train))
print('test score : ', model.score(x_test, t_test))
#CSVファイルの書き出し
y =
array([239.6785766 , 250.53141737, 164.84805461, 120.27678545,
181.73395543, 262.21230671, 112.23276599, 191.94646405,
151.50037962, 165.03910148, 193.77497659, 112.03733039,
172.34904863])
df_test = pd.DataFrame({'pred':y})#ここでデータフレームへ入れる
df_test.to_csv("diabetes_test.csv")#()内にファイル名を指定しする。
#CSVファイルの書き出し(リストのリスト型)
y=
array([[237.38111445],
[251.57608582],
[162.33925285],
[122.05644692],
[186.12912752],
[120.51573176],
[172.26027197]])
tmp = pd.DataFrame(y,columns =['pred'])#データフレームへ入れる
tmp.to_csv('pls_pred.csv',index=None)#インデックスを指定してます。
正直CSVファイル変換の前処理としてデータフレームへ入れる操作が2種類ある
リスト型とリストのリスト型で処理が異なる理由がわかっていないため
わかり次第別記事でまとめたいと思います。
今後も追加していくと思います。