目的
Windows+Pythonでファイルを処理すると、「Unicodexxxが認識されない」旨のメッセージで怒られた。ファイルをSakuraで開いてみると、やはりSHIFT-JISですね。いつもの場合、SakuraでUTF-8に変換ー>保存 すればいいのだが、今回はファイル数が多いので、手作業は勘弁だ。
Macで使い慣れているiconvでBatで変換しないかとおもったが、Windowsだから、そのコマンドがないよ。
ツールの準備
調べてみると、iconv for windows があるので、それを使おうと思ったら、Git Bashからも使えると分かったので、その手間もかかることなくですむのだ。Git for windows をインストールすれば自動的に入るので、それを使うことにした。
文字コードを調べる
file -i WT.csv
Non-ISO extended-ASCII text, with CRLF line terminators
Non-ISO extended-ASCII textでなんなんだ。実はSHIIF-JISのこと。
ここに詳しく記述されているとおり。
ただし、「findコマンド」ではなく「file」コマンドのほうが正しい。
文字コードを変換する
最後は下記のように変化すればOK
iconv -f SHIFT-JIS -t UTF-8 WT.csv > WT-UTF8.csv