e-Statのデータから都道府県の空き家率をヒストグラムで見る
今回は各都道府県について空き家の総数に占める比率を求め、その比率をヒストグラムにしていきます。
使うデータ
『住宅・土地統計調査 令和5年住宅・土地統計調査 住宅及び世帯に関する基本集計 全国・都道府県・市区町村 』
実行環境
Google Colaboratory
分析準備
ダウンロード設定の際に、ページ下部で桁区切りのカンマをなくしておくと少しデータ加工が楽になります。
ここからGoogle Colaboratoryでデータ加工していきます。
Google Colaboratory上でコードを実行するにはGoogle Driveと接続する必要があります。その手順はe-Statの活用例①の前半で紹介しているので、こちらをご覧ください。
# ダウンロードファイルの名前はご自身のフォルダにあるものに修正してください。
import pandas as pd
house_data = pd.read_csv('FEH_00200522_250111141525.csv')
house_data.head()
このデータから都道府県だけで区分したデータを抽出するために次のコードを実行します。
akiya_data = house_data['全国、都道府県、21大都市'].str.endswith(('都','道','府','県'))
akiya = house_data[akiya_data]
akiya.head()
今回の分析では空き家数を総数で割った「空き家率」が必要なため、次のコードを実行します。
akiya['akiya_rate'] = akiya['空き家']/akiya['総数']
akiya
これで準備完了です。
分析
ヒストグラムを描画するコードは次のようになります。
import matplotlib.pyplot as plt
plt.hist(akiya['akiya_rate'])
これで目的のヒストグラムを描画することができました!
おまけ
ヒストグラムだけを出力した段階では、各地の空き家率をどのように比べると効果的なのかはわかりません。しかし、直感的に見て0.16あたりにボリュームゾーンを持った山と0.2あたりにボリュームゾーンを持った山が重なっているように見えます。
空き家率が0.2を超えるのはどのような地域なのでしょうか?
それを教えてくれるコードは次のようになります。
akiya_20 = akiya[akiya['akiya_rate']>0.20]
akiya_20
結果
これらの地域を見ると、大都市圏への移動距離や移動時間などが空き家率と関係がありそうです。であれば、次はそれに関するデータを入手し分析することで新しい発見があるかもしれません!