#概要
社内システムでダウンロードしたデータをpandasで処理しようとしたら、先頭列がindexになってしまってハマった事例の紹介
#現象
問題のデータ(もちろん実際のデータとは違います。)
name,population,area
Osaka,2691k,223,
Nara,353k,276,
Kyoto,1472k,827,
Koube,1542k,552,
Wakayama,355k,208,
一見問題の無さそうな下記のようなデータをread_csv()すると、先頭列(name)がindexになっている。
![Screen Shot 2020-01-29 at 23.24.55.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F44112%2F69312617-ddb4-89d4-9d1e-8fea682bab25.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=da8b3caa361f971c0dc926535b5507a4)
#原因
各レコードの最後には「,」があるのに、Header行の末尾には「,」が無いのが原因。
試しにヘッダー行の最後に「,」を入れると。下のように一列余計なカラムは追加されるがindexは自動で振り出された。
![Screen Shot 2020-01-29 at 23.32.12.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F44112%2F90cbcc4f-5f2f-8951-33c4-1abc578a7e75.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=7eee3a99fcc919fad5890d25cd7c2fdb)
今回のサンプルはわかりやすいようにcsvファイルでまとめたが、実際に業務でつまったのはtsv(タブ区切り)だったので余計に時間を要してしまった。
#教訓と感想
ツールに溺れずデータをちゃんと見よう。
にしても、pandasで軽くデータを編集できるようになってからExcelを使う機会が減った気がする。今回のデータも50Mぐらいのtsvファイルだったけど数秒で読み込めたし。(Excelはハングしてしまった・・・・。)