こちらの重回帰、切片入れ忘れで誤っています。後ほど修正します。 修正しました。
概要
観光地は天候が良い、あるいは特殊だから観光地として成立しているはずで、天候のパラメータが少なからず影響していると考えたため。特に沖縄はそうであろうと考えたため分析しようと思いました。しかし一つやるも大分類すべてやるも手間は同じなので全部やります。
天候データを取得
こちらから取得させていただきました。
まずはざっとプロット
df = pd.read_csv('/Users/iMac/Dropbox/CSV/2016年の天候.csv')
sns.pairplot(df,markers='+',kind='reg').savefig('test.png')
plt.close('all')
df = pd.melt(df, '都道府県')
s= sns.catplot(x='都道府県', y='value', hue='variable', data=df, row=None, col='variable',
col_wrap=3, estimator=np.mean, sharey=False)
plt.savefig('test02.png')
plt.close('all')
沖縄は平均気温はダントツ(左上)だが
快晴日数は意外にも最下位(右下)
湿度も高く、依って沖縄は冴え渡る青空というよりもどんよりとしているけど蒸しているという状態のほうが多いと推定。
閑話休題
2016年の都道府県事業活動の産業別年間売上データを整形
title = '総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csv'
df_01 = pd.read_csv(dir_path + title)
# 統計局は取得できなかったデータはハイフン処理するので0変換
df_01["value"] = pd.to_numeric(df_01["value"], errors='coerce').fillna(0)
# いらない情報を排除
drop_list = ['合計', '全国', '海外(海外支店(現地法人は含まない)等)']
for i in drop_list:
df_01 = df_01[(df_01['地域'] != i)]
&
# 2016年の天候データをマージ
df_03 = pd.read_csv(dir_path + '2016年の天候.csv')
df_01 = pd.merge(df_01, df_03, left_on='地域', right_on='都道府県')
上記により、各都道府県に天候データが貼り付けられました。カラム名が重複すると
x_
、y_
プレフィックスがつくので気をつけて下さい。
各都道府県別の統計調査項目は以下の通りとなっている。
df_01['事業活動の産業'].unique()
'''
['サービス産業計(※「情報通信業」を除く。)' 'H運輸業,郵便業' 'K不動産業,物品賃貸業'
'L学術研究,専門・技術サービス業(※「学術・開発研究機関」及び「純粋持株会社」を除く。)' 'M宿泊業,飲食サービス業'
'N生活関連サービス業,娯楽業(※「家事サービス業」を除く。)' 'O教育,学習支援業(※「学校教育」を除く。)'
'P医療,福祉(*「保健所」,「社会保険事業団体」及び「福祉事務所」を除く。)'
'Rサービス業(他に分類されないもの)(※「政治・経済・文化団体」,「宗教」及び「外国公務」を除く。)']
'''
なので、これをforでまわして全てまずはプロットさせてみます。そしてせっかく作った変数なので、そのままstatsmodels
モジュールで重回帰分析をします。
for i in df_01['事業活動の産業'].unique():
df_02=df_01[(df_01['事業活動の産業'] == i)]
g = sns.catplot(x='地域', y='value', hue=None, data=df_01[(df_01['事業活動の産業'] == i)], row=None, col='時間軸(年)',col_wrap=2, estimator=np.mean, ci=95, n_boot=1000,col_order=None, kind="bar",legend=True, legend_out=True, sharex=True, sharey=False )
g.fig.set_figwidth(30)
g.fig.set_figheight(20)
g.set_xticklabels(df_01['地域'].unique(), rotation=90)
g.savefig(title + i + '02.png')
plt.close('all')
# 説明変数
X = df_02[['年間快晴日数(日)', '年間降水日数(日)', '年間雪日数(日)']]
X = sm.add_constant(X)
# 目的変数
Y = np.array(df_02['value'])
model = smf.OLS(Y, X)
result = model.fit()
print('全国都道府県別産業別重回帰分析'+i)
print(result.summary())
'サービス産業計(※「情報通信業」を除く。)'
'H運輸業,郵便業'
'K不動産業,物品賃貸業'
'L学術研究,専門・技術サービス業(※「学術・開発研究機関」及び「純粋持株会社」を除く。)'
'M宿泊業,飲食サービス業'
'N生活関連サービス業,娯楽業(※「家事サービス業」を除く。)'
'P医療,福祉(*「保健所」,「社会保険事業団体」及び「福祉事務所」を除く。)'
'Rサービス業(他に分類されないもの)(※「政治・経済・文化団体」,「宗教」及び「外国公務」を除く。)
東京が圧倒的です。。。
医療のみ偏差が少なそうなのが、高齢化社会を表していますね。
旅行産業は娯楽業に分類されます。
一番知りたかったのが天候と娯楽業の関係性なので見てみます。
全国都道府県別産業別重回帰分析N生活関連サービス業,娯楽業(※「家事サービス業」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.041
Model: OLS Adj. R-squared: -0.026
Method: Least Squares F-statistic: 0.6078
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.614
Time: 12:34:19 Log-Likelihood: -731.00
No. Observations: 47 AIC: 1470.
Df Residuals: 43 BIC: 1477.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.673e+06 1.43e+06 1.167 0.250 -1.22e+06 4.56e+06
年間快晴日数(日) 7631.7501 2.3e+04 0.332 0.742 -3.88e+04 5.4e+04
年間降水日数(日) -6597.5369 1.04e+04 -0.637 0.528 -2.75e+04 1.43e+04
年間雪日数(日) -3739.5693 9474.105 -0.395 0.695 -2.28e+04 1.54e+04
==============================================================================
Omnibus: 76.929 Durbin-Watson: 1.371
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1027.941
Skew: 4.271 Prob(JB): 6.10e-224
Kurtosis: 24.259 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
決定係数が低く、p値も5%を超えているので、信頼のおける結果ではなかったです。
区分が大雑把すぎたのと、
何年もデータを同じ地位域で取得しないと意味がなかったかもしれません。
次回やるときは同一県で、できるだけ長期のデータを用意するべきだと思いました。
ついでなので、他のすべての分析も載せておきます。
全国都道府県別産業別重回帰分析サービス産業計(※「情報通信業」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.032
Model: OLS Adj. R-squared: -0.035
Method: Least Squares F-statistic: 0.4814
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.697
Time: 12:34:16 Log-Likelihood: -829.97
No. Observations: 47 AIC: 1668.
Df Residuals: 43 BIC: 1675.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.252e+07 1.18e+07 1.063 0.294 -1.12e+07 3.63e+07
年間快晴日数(日) 1.683e+04 1.89e+05 0.089 0.929 -3.64e+05 3.98e+05
年間降水日数(日) -4.434e+04 8.51e+04 -0.521 0.605 -2.16e+05 1.27e+05
年間雪日数(日) -4.239e+04 7.78e+04 -0.545 0.589 -1.99e+05 1.15e+05
==============================================================================
Omnibus: 83.617 Durbin-Watson: 1.484
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1419.039
Skew: 4.737 Prob(JB): 7.24e-309
Kurtosis: 28.196 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析H運輸業,郵便業
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.041
Model: OLS Adj. R-squared: -0.026
Method: Least Squares F-statistic: 0.6120
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.611
Time: 12:34:17 Log-Likelihood: -756.26
No. Observations: 47 AIC: 1521.
Df Residuals: 43 BIC: 1528.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 2.694e+06 2.45e+06 1.098 0.278 -2.25e+06 7.64e+06
年間快晴日数(日) 7782.9394 3.94e+04 0.198 0.844 -7.16e+04 8.72e+04
年間降水日数(日) -1.072e+04 1.77e+04 -0.605 0.549 -4.65e+04 2.5e+04
年間雪日数(日) -8661.8284 1.62e+04 -0.534 0.596 -4.14e+04 2.4e+04
==============================================================================
Omnibus: 79.815 Durbin-Watson: 1.361
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1191.524
Skew: 4.462 Prob(JB): 1.84e-259
Kurtosis: 25.996 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析K不動産業,物品賃貸業
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.026
Model: OLS Adj. R-squared: -0.042
Method: Least Squares F-statistic: 0.3835
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.765
Time: 12:34:17 Log-Likelihood: -760.80
No. Observations: 47 AIC: 1530.
Df Residuals: 43 BIC: 1537.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 2.263e+06 2.7e+06 0.837 0.407 -3.19e+06 7.71e+06
年間快晴日数(日) -4802.4125 4.34e+04 -0.111 0.912 -9.23e+04 8.26e+04
年間降水日数(日) -6903.7059 1.95e+04 -0.354 0.725 -4.63e+04 3.25e+04
年間雪日数(日) -1.217e+04 1.79e+04 -0.681 0.499 -4.82e+04 2.38e+04
==============================================================================
Omnibus: 91.725 Durbin-Watson: 1.702
Prob(Omnibus): 0.000 Jarque-Bera (JB): 2046.337
Skew: 5.362 Prob(JB): 0.00
Kurtosis: 33.495 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析L学術研究,専門・技術サービス業(※「学術・開発研究機関」及び「純粋持株会社」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.020
Model: OLS Adj. R-squared: -0.048
Method: Least Squares F-statistic: 0.2982
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.826
Time: 12:34:18 Log-Likelihood: -742.14
No. Observations: 47 AIC: 1492.
Df Residuals: 43 BIC: 1500.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.31e+06 1.82e+06 0.721 0.475 -2.35e+06 4.97e+06
年間快晴日数(日) -5227.9618 2.92e+04 -0.179 0.859 -6.4e+04 5.36e+04
年間降水日数(日) -3272.1738 1.31e+04 -0.249 0.804 -2.97e+04 2.32e+04
年間雪日数(日) -8142.8622 1.2e+04 -0.678 0.501 -3.24e+04 1.61e+04
==============================================================================
Omnibus: 99.231 Durbin-Watson: 1.833
Prob(Omnibus): 0.000 Jarque-Bera (JB): 2856.614
Skew: 5.988 Prob(JB): 0.00
Kurtosis: 39.267 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析M宿泊業,飲食サービス業
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.037
Model: OLS Adj. R-squared: -0.030
Method: Least Squares F-statistic: 0.5535
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.649
Time: 12:34:19 Log-Likelihood: -705.57
No. Observations: 47 AIC: 1419.
Df Residuals: 43 BIC: 1427.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.088e+06 8.34e+05 1.304 0.199 -5.95e+05 2.77e+06
年間快晴日数(日) 1398.4187 1.34e+04 0.104 0.917 -2.56e+04 2.84e+04
年間降水日数(日) -3932.0088 6030.394 -0.652 0.518 -1.61e+04 8229.440
年間雪日数(日) -2675.7910 5514.883 -0.485 0.630 -1.38e+04 8446.030
==============================================================================
Omnibus: 72.537 Durbin-Watson: 1.268
Prob(Omnibus): 0.000 Jarque-Bera (JB): 829.152
Skew: 3.981 Prob(JB): 8.95e-181
Kurtosis: 21.974 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析N生活関連サービス業,娯楽業(※「家事サービス業」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.041
Model: OLS Adj. R-squared: -0.026
Method: Least Squares F-statistic: 0.6078
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.614
Time: 12:34:19 Log-Likelihood: -731.00
No. Observations: 47 AIC: 1470.
Df Residuals: 43 BIC: 1477.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.673e+06 1.43e+06 1.167 0.250 -1.22e+06 4.56e+06
年間快晴日数(日) 7631.7501 2.3e+04 0.332 0.742 -3.88e+04 5.4e+04
年間降水日数(日) -6597.5369 1.04e+04 -0.637 0.528 -2.75e+04 1.43e+04
年間雪日数(日) -3739.5693 9474.105 -0.395 0.695 -2.28e+04 1.54e+04
==============================================================================
Omnibus: 76.929 Durbin-Watson: 1.371
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1027.941
Skew: 4.271 Prob(JB): 6.10e-224
Kurtosis: 24.259 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析O教育,学習支援業(※「学校教育」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.044
Model: OLS Adj. R-squared: -0.023
Method: Least Squares F-statistic: 0.6540
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.585
Time: 12:34:20 Log-Likelihood: -624.45
No. Observations: 47 AIC: 1257.
Df Residuals: 43 BIC: 1264.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.457e+05 1.49e+05 0.981 0.332 -1.54e+05 4.45e+05
年間快晴日数(日) 356.5944 2383.753 0.150 0.882 -4450.701 5163.890
年間降水日数(日) -454.7457 1073.452 -0.424 0.674 -2619.568 1710.076
年間雪日数(日) -755.4796 981.687 -0.770 0.446 -2735.241 1224.281
==============================================================================
Omnibus: 80.367 Durbin-Watson: 1.236
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1204.096
Skew: 4.514 Prob(JB): 3.42e-262
Kurtosis: 26.095 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析P医療,福祉(*「保健所」,「社会保険事業団体」及び「福祉事務所」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.045
Model: OLS Adj. R-squared: -0.022
Method: Least Squares F-statistic: 0.6759
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.572
Time: 12:34:21 Log-Likelihood: -718.82
No. Observations: 47 AIC: 1446.
Df Residuals: 43 BIC: 1453.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.922e+06 1.11e+06 1.737 0.089 -3.09e+05 4.15e+06
年間快晴日数(日) 4979.2614 1.78e+04 0.280 0.780 -3.08e+04 4.08e+04
年間降水日数(日) -7108.1179 7994.585 -0.889 0.379 -2.32e+04 9014.499
年間雪日数(日) -1557.4754 7311.163 -0.213 0.832 -1.63e+04 1.32e+04
==============================================================================
Omnibus: 37.587 Durbin-Watson: 1.218
Prob(Omnibus): 0.000 Jarque-Bera (JB): 97.162
Skew: 2.248 Prob(JB): 7.97e-22
Kurtosis: 8.422 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析Rサービス業(他に分類されないもの)(※「政治・経済・文化団体」,「宗教」及び「外国公務」を除く。)
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.031
Model: OLS Adj. R-squared: -0.036
Method: Least Squares F-statistic: 0.4650
Date: Wed, 20 Feb 2019 Prob (F-statistic): 0.708
Time: 12:34:22 Log-Likelihood: -732.74
No. Observations: 47 AIC: 1473.
Df Residuals: 43 BIC: 1481.
Df Model: 3
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const 1.423e+06 1.49e+06 0.957 0.344 -1.58e+06 4.42e+06
年間快晴日数(日) 4706.6274 2.39e+04 0.197 0.845 -4.34e+04 5.28e+04
年間降水日数(日) -5348.9868 1.07e+04 -0.498 0.621 -2.7e+04 1.63e+04
年間雪日数(日) -4691.5331 9830.162 -0.477 0.636 -2.45e+04 1.51e+04
==============================================================================
Omnibus: 84.020 Durbin-Watson: 1.469
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1445.978
Skew: 4.767 Prob(JB): 0.00
Kurtosis: 28.446 Cond. No. 883.
==============================================================================
Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.