内閣府の「国民の祝日」のCSVファイルをpandasで整形する

  • 34
    いいね
  • 0
    コメント

Twitterで叩かれてたあれです。
どんな酷い代物なんだろうと思ってpythonのpandasで開いてみました。
実物がこれ

スクリーンショット 2017-02-23 0.52.30.png

このCSVファイルの使い道がわからないので何とも言えないですが、これってそこまで酷いんですかね?
てっきり行と列がズレてるとか、日付けのフォーマットがばらばらとかそういうのを期待してたんですが。
日付けのフォーマットのズレに関してもpandasには時系列を統一させる機能もあるので比較的容易に解決できます。

何はともあれ整形してみましょう。

スクリーンショット 2017-02-23 2.05.59.png

整形したのは
・欠損値が存在する列の削除
・重複した名称の削除
・日付けを文字列型からdatetime型に変更
以上3点です。

これで多少見やすくなったんですかね。

ついでにその祝日で毎年ズレが発生しているのかを表示しておきましょう

スクリーンショット 2017-02-23 2.09.51.png

おまけで1列にまとめたバージョンも

スクリーンショット 2017-02-23 1.17.05.png

こういったデータ整形はPandasを使えば簡単にできます。