目的
pythonでcsvファイルを読み込む時にpandasのread_csvを使用するが、
エラーがよく出るので対処法をまとめる。
今回はエラーの中身については深く言及せず、考えられる原因とその対処法についてのみ説明する。
考えられる主な原因
1、ファイル名が日本語
2、csvファイルの中身に読み取れない文字がある
1、ファイル名が日本語
ファイル名を保存する際に、日本語で
東京の天気.csv
のように保存することがあると思う。
この時にたまにエラーが出る。
その対処法は、
import pandas as pd
pd.read_csv('東京の天気.csv', engine='python')
と、engineをpythonに指定すれば解決するかもしれない。
2、csvの中身に読み取れない文字がある。
ファイルに指定されている文字コードでは読み取れない文字が入っている場合、エラーが出る。
対処法としては、
1、文字コードを指定する
2、エラーを無視する
の2通り。
1、文字コードを指定する
pd.read_csv('test.csv', encoding='sjis')
または
pd.read_csv('test.csv', encoding='cp932')
を試す。
それでもダメな場合は、
2、エラーを無視して、無理やりsjisで読み込む。
import codecs as cd
tmp = cd.open('test.csv', 'r', 'sjis', 'ignore')
pd.read_table(tmp)
これでもダメな場合は、他に原因があることが多い。
例えば、ファイルの指定場所が間違い、.csvをつけ忘れ、等の凡ミスも疑う。
以上です。
間違いがあればご指摘ください。