LoginSignup
2
3

More than 5 years have passed since last update.

事業活動の産業(大分類)別の売上高に天候が関係しているのか調べる。

Last updated at Posted at 2019-02-18

こちらの重回帰、切片入れ忘れで誤っています。後ほど修正します。 修正しました。

概要

観光地は天候が良い、あるいは特殊だから観光地として成立しているはずで、天候のパラメータが少なからず影響していると考えたため。特に沖縄はそうであろうと考えたため分析しようと思いました。しかし一つやるも大分類すべてやるも手間は同じなので全部やります。

天候データを取得

こちらから取得させていただきました。

「年間快晴日数」についての都道府県ランキング

まずはざっとプロット

df = pd.read_csv('/Users/iMac/Dropbox/CSV/2016年の天候.csv')
sns.pairplot(df,markers='+',kind='reg').savefig('test.png')
plt.close('all')
df = pd.melt(df, '都道府県')
s= sns.catplot(x='都道府県', y='value', hue='variable', data=df, row=None, col='variable',
            col_wrap=3, estimator=np.mean, sharey=False)
plt.savefig('test02.png')
plt.close('all')

test.png

t.png

沖縄は平均気温はダントツ(左上)だが
快晴日数は意外にも最下位(右下)
湿度も高く、依って沖縄は冴え渡る青空というよりもどんよりとしているけど蒸しているという状態のほうが多いと推定。

閑話休題

2016年の都道府県事業活動の産業別年間売上データを整形


title = '総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csv'
df_01 = pd.read_csv(dir_path + title)
# 統計局は取得できなかったデータはハイフン処理するので0変換
df_01["value"] = pd.to_numeric(df_01["value"], errors='coerce').fillna(0)
# いらない情報を排除
drop_list = ['合計', '全国', '海外(海外支店(現地法人は含まない)等)']
for i in drop_list:
    df_01 = df_01[(df_01['地域'] != i)]
&
# 2016年の天候データをマージ
df_03 = pd.read_csv(dir_path + '2016年の天候.csv')
df_01 = pd.merge(df_01, df_03, left_on='地域', right_on='都道府県')  

上記により、各都道府県に天候データが貼り付けられました。カラム名が重複すると
x_y_プレフィックスがつくので気をつけて下さい。

各都道府県別の統計調査項目は以下の通りとなっている。

df_01['事業活動の産業'].unique()

'''
['サービス産業計(※「情報通信業」を除く。)' 'H運輸業,郵便業' 'K不動産業,物品賃貸業'
 'L学術研究,専門・技術サービス業(※「学術・開発研究機関」及び「純粋持株会社」を除く。)' 'M宿泊業,飲食サービス業'
 'N生活関連サービス業,娯楽業(※「家事サービス業」を除く。)' 'O教育,学習支援業(※「学校教育」を除く。)'
 'P医療,福祉(*「保健所」,「社会保険事業団体」及び「福祉事務所」を除く。)'
 'Rサービス業(他に分類されないもの)(※「政治・経済・文化団体」,「宗教」及び「外国公務」を除く。)']
'''

なので、これをforでまわして全てまずはプロットさせてみます。そしてせっかく作った変数なので、そのままstatsmodelsモジュールで重回帰分析をします。

for i in df_01['事業活動の産業'].unique():
    df_02=df_01[(df_01['事業活動の産業'] == i)]
    g = sns.catplot(x='地域', y='value', hue=None, data=df_01[(df_01['事業活動の産業'] == i)], row=None, col='時間軸(年)',col_wrap=2, estimator=np.mean, ci=95, n_boot=1000,col_order=None, kind="bar",legend=True, legend_out=True, sharex=True, sharey=False )

    g.fig.set_figwidth(30)
    g.fig.set_figheight(20)
    g.set_xticklabels(df_01['地域'].unique(), rotation=90)
    g.savefig(title + i + '02.png')
    plt.close('all')

    # 説明変数
    X = df_02[['年間快晴日数(日)', '年間降水日数(日)', '年間雪日数(日)']]
    X = sm.add_constant(X)

    # 目的変数
    Y = np.array(df_02['value'])

    model = smf.OLS(Y, X)
    result = model.fit()
    print('全国都道府県別産業別重回帰分析'+i)
    print(result.summary())

'サービス産業計(※「情報通信業」を除く。)'
総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvサービス産業計(※「情報通信業」を除く。)02.png
'H運輸業,郵便業'
総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvH運輸業,郵便業02.png

'K不動産業,物品賃貸業'

総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvK不動産業,物品賃貸業02.png

'L学術研究,専門・技術サービス業(※「学術・開発研究機関」及び「純粋持株会社」を除く。)'
総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvL学術研究,専門・技術サービス業(※「学術・開発研究機関」及び「純粋持株会社」を除く。)02.png

'M宿泊業,飲食サービス業'

総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvM宿泊業,飲食サービス業02.png

'N生活関連サービス業,娯楽業(※「家事サービス業」を除く。)'
総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvN生活関連サービス業,娯楽業(※「家事サービス業」を除く。)02.png

'O教育,学習支援業(※「学校教育」を除く。)' 
総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvO教育,学習支援業(※「学校教育」を除く。)02.png

'P医療,福祉(*「保健所」,「社会保険事業団体」及び「福祉事務所」を除く。)'
総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvP医療,福祉(*「保健所」,「社会保険事業団体」及び「福祉事務所」を除く。)02.png
'Rサービス業(他に分類されないもの)(※「政治・経済・文化団体」,「宗教」及び「外国公務」を除く。)総務省_0003216893_都道府県,事業活動の産業(大分類)別年間売上高_201601-201612.csvRサービス業(他に分類されないもの)(※「政治・経済・文化団体」,「宗教」及び「外国公務」を除く。)02.png

東京が圧倒的です。。。

医療のみ偏差が少なそうなのが、高齢化社会を表していますね。

旅行産業は娯楽業に分類されます。

娯楽業の内容規定(統計局)

一番知りたかったのが天候と娯楽業の関係性なので見てみます。

全国都道府県別産業別重回帰分析N生活関連サービス業娯楽業(※「家事サービス業を除く)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.041
Model:                            OLS   Adj. R-squared:                 -0.026
Method:                 Least Squares   F-statistic:                    0.6078
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.614
Time:                        12:34:19   Log-Likelihood:                -731.00
No. Observations:                  47   AIC:                             1470.
Df Residuals:                      43   BIC:                             1477.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.673e+06   1.43e+06      1.167      0.250   -1.22e+06    4.56e+06
年間快晴日数()   7631.7501    2.3e+04      0.332      0.742   -3.88e+04     5.4e+04
年間降水日数()  -6597.5369   1.04e+04     -0.637      0.528   -2.75e+04    1.43e+04
年間雪日数()   -3739.5693   9474.105     -0.395      0.695   -2.28e+04    1.54e+04
==============================================================================
Omnibus:                       76.929   Durbin-Watson:                   1.371
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1027.941
Skew:                           4.271   Prob(JB):                    6.10e-224
Kurtosis:                      24.259   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

決定係数が低く、p値も5%を超えているので、信頼のおける結果ではなかったです。

区分が大雑把すぎたのと、
何年もデータを同じ地位域で取得しないと意味がなかったかもしれません。
次回やるときは同一県で、できるだけ長期のデータを用意するべきだと思いました。

ついでなので、他のすべての分析も載せておきます。

全国都道府県別産業別重回帰分析サービス産業計(※「情報通信業を除く。)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.032
Model:                            OLS   Adj. R-squared:                 -0.035
Method:                 Least Squares   F-statistic:                    0.4814
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.697
Time:                        12:34:16   Log-Likelihood:                -829.97
No. Observations:                  47   AIC:                             1668.
Df Residuals:                      43   BIC:                             1675.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.252e+07   1.18e+07      1.063      0.294   -1.12e+07    3.63e+07
年間快晴日数()   1.683e+04   1.89e+05      0.089      0.929   -3.64e+05    3.98e+05
年間降水日数()  -4.434e+04   8.51e+04     -0.521      0.605   -2.16e+05    1.27e+05
年間雪日数()   -4.239e+04   7.78e+04     -0.545      0.589   -1.99e+05    1.15e+05
==============================================================================
Omnibus:                       83.617   Durbin-Watson:                   1.484
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1419.039
Skew:                           4.737   Prob(JB):                    7.24e-309
Kurtosis:                      28.196   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析H運輸業郵便業
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.041
Model:                            OLS   Adj. R-squared:                 -0.026
Method:                 Least Squares   F-statistic:                    0.6120
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.611
Time:                        12:34:17   Log-Likelihood:                -756.26
No. Observations:                  47   AIC:                             1521.
Df Residuals:                      43   BIC:                             1528.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       2.694e+06   2.45e+06      1.098      0.278   -2.25e+06    7.64e+06
年間快晴日数()   7782.9394   3.94e+04      0.198      0.844   -7.16e+04    8.72e+04
年間降水日数()  -1.072e+04   1.77e+04     -0.605      0.549   -4.65e+04     2.5e+04
年間雪日数()   -8661.8284   1.62e+04     -0.534      0.596   -4.14e+04     2.4e+04
==============================================================================
Omnibus:                       79.815   Durbin-Watson:                   1.361
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1191.524
Skew:                           4.462   Prob(JB):                    1.84e-259
Kurtosis:                      25.996   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析K不動産業物品賃貸業
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.026
Model:                            OLS   Adj. R-squared:                 -0.042
Method:                 Least Squares   F-statistic:                    0.3835
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.765
Time:                        12:34:17   Log-Likelihood:                -760.80
No. Observations:                  47   AIC:                             1530.
Df Residuals:                      43   BIC:                             1537.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       2.263e+06    2.7e+06      0.837      0.407   -3.19e+06    7.71e+06
年間快晴日数()  -4802.4125   4.34e+04     -0.111      0.912   -9.23e+04    8.26e+04
年間降水日数()  -6903.7059   1.95e+04     -0.354      0.725   -4.63e+04    3.25e+04
年間雪日数()   -1.217e+04   1.79e+04     -0.681      0.499   -4.82e+04    2.38e+04
==============================================================================
Omnibus:                       91.725   Durbin-Watson:                   1.702
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             2046.337
Skew:                           5.362   Prob(JB):                         0.00
Kurtosis:                      33.495   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析L学術研究専門技術サービス業(※「学術開発研究機関及び純粋持株会社を除く)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.020
Model:                            OLS   Adj. R-squared:                 -0.048
Method:                 Least Squares   F-statistic:                    0.2982
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.826
Time:                        12:34:18   Log-Likelihood:                -742.14
No. Observations:                  47   AIC:                             1492.
Df Residuals:                      43   BIC:                             1500.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        1.31e+06   1.82e+06      0.721      0.475   -2.35e+06    4.97e+06
年間快晴日数()  -5227.9618   2.92e+04     -0.179      0.859    -6.4e+04    5.36e+04
年間降水日数()  -3272.1738   1.31e+04     -0.249      0.804   -2.97e+04    2.32e+04
年間雪日数()   -8142.8622    1.2e+04     -0.678      0.501   -3.24e+04    1.61e+04
==============================================================================
Omnibus:                       99.231   Durbin-Watson:                   1.833
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             2856.614
Skew:                           5.988   Prob(JB):                         0.00
Kurtosis:                      39.267   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析M宿泊業飲食サービス業
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.037
Model:                            OLS   Adj. R-squared:                 -0.030
Method:                 Least Squares   F-statistic:                    0.5535
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.649
Time:                        12:34:19   Log-Likelihood:                -705.57
No. Observations:                  47   AIC:                             1419.
Df Residuals:                      43   BIC:                             1427.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.088e+06   8.34e+05      1.304      0.199   -5.95e+05    2.77e+06
年間快晴日数()   1398.4187   1.34e+04      0.104      0.917   -2.56e+04    2.84e+04
年間降水日数()  -3932.0088   6030.394     -0.652      0.518   -1.61e+04    8229.440
年間雪日数()   -2675.7910   5514.883     -0.485      0.630   -1.38e+04    8446.030
==============================================================================
Omnibus:                       72.537   Durbin-Watson:                   1.268
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              829.152
Skew:                           3.981   Prob(JB):                    8.95e-181
Kurtosis:                      21.974   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析N生活関連サービス業娯楽業(※「家事サービス業を除く)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.041
Model:                            OLS   Adj. R-squared:                 -0.026
Method:                 Least Squares   F-statistic:                    0.6078
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.614
Time:                        12:34:19   Log-Likelihood:                -731.00
No. Observations:                  47   AIC:                             1470.
Df Residuals:                      43   BIC:                             1477.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.673e+06   1.43e+06      1.167      0.250   -1.22e+06    4.56e+06
年間快晴日数()   7631.7501    2.3e+04      0.332      0.742   -3.88e+04     5.4e+04
年間降水日数()  -6597.5369   1.04e+04     -0.637      0.528   -2.75e+04    1.43e+04
年間雪日数()   -3739.5693   9474.105     -0.395      0.695   -2.28e+04    1.54e+04
==============================================================================
Omnibus:                       76.929   Durbin-Watson:                   1.371
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1027.941
Skew:                           4.271   Prob(JB):                    6.10e-224
Kurtosis:                      24.259   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析O教育学習支援業(※「学校教育を除く)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.044
Model:                            OLS   Adj. R-squared:                 -0.023
Method:                 Least Squares   F-statistic:                    0.6540
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.585
Time:                        12:34:20   Log-Likelihood:                -624.45
No. Observations:                  47   AIC:                             1257.
Df Residuals:                      43   BIC:                             1264.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.457e+05   1.49e+05      0.981      0.332   -1.54e+05    4.45e+05
年間快晴日数()    356.5944   2383.753      0.150      0.882   -4450.701    5163.890
年間降水日数()   -454.7457   1073.452     -0.424      0.674   -2619.568    1710.076
年間雪日数()    -755.4796    981.687     -0.770      0.446   -2735.241    1224.281
==============================================================================
Omnibus:                       80.367   Durbin-Watson:                   1.236
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1204.096
Skew:                           4.514   Prob(JB):                    3.42e-262
Kurtosis:                      26.095   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析P医療福祉(*「保健所,社会保険事業団体及び福祉事務所を除く)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.045
Model:                            OLS   Adj. R-squared:                 -0.022
Method:                 Least Squares   F-statistic:                    0.6759
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.572
Time:                        12:34:21   Log-Likelihood:                -718.82
No. Observations:                  47   AIC:                             1446.
Df Residuals:                      43   BIC:                             1453.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.922e+06   1.11e+06      1.737      0.089   -3.09e+05    4.15e+06
年間快晴日数()   4979.2614   1.78e+04      0.280      0.780   -3.08e+04    4.08e+04
年間降水日数()  -7108.1179   7994.585     -0.889      0.379   -2.32e+04    9014.499
年間雪日数()   -1557.4754   7311.163     -0.213      0.832   -1.63e+04    1.32e+04
==============================================================================
Omnibus:                       37.587   Durbin-Watson:                   1.218
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               97.162
Skew:                           2.248   Prob(JB):                     7.97e-22
Kurtosis:                       8.422   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
全国都道府県別産業別重回帰分析Rサービス業他に分類されないもの(※「政治経済文化団体」,「宗教及び外国公務を除く)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.031
Model:                            OLS   Adj. R-squared:                 -0.036
Method:                 Least Squares   F-statistic:                    0.4650
Date:                Wed, 20 Feb 2019   Prob (F-statistic):              0.708
Time:                        12:34:22   Log-Likelihood:                -732.74
No. Observations:                  47   AIC:                             1473.
Df Residuals:                      43   BIC:                             1481.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.423e+06   1.49e+06      0.957      0.344   -1.58e+06    4.42e+06
年間快晴日数()   4706.6274   2.39e+04      0.197      0.845   -4.34e+04    5.28e+04
年間降水日数()  -5348.9868   1.07e+04     -0.498      0.621    -2.7e+04    1.63e+04
年間雪日数()   -4691.5331   9830.162     -0.477      0.636   -2.45e+04    1.51e+04
==============================================================================
Omnibus:                       84.020   Durbin-Watson:                   1.469
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             1445.978
Skew:                           4.767   Prob(JB):                         0.00
Kurtosis:                      28.446   Cond. No.                         883.
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3