14
Help us understand the problem. What are the problem?

More than 3 years have passed since last update.

posted at

Windows コマンドでファイルの文字コード変換

目的

Windows+Pythonでファイルを処理すると、「Unicodexxxが認識されない」旨のメッセージで怒られた。ファイルをSakuraで開いてみると、やはりSHIFT-JISですね。いつもの場合、SakuraでUTF-8に変換ー>保存 すればいいのだが、今回はファイル数が多いので、手作業は勘弁だ。
 Macで使い慣れているiconvでBatで変換しないかとおもったが、Windowsだから、そのコマンドがないよ。

ツールの準備

調べてみると、iconv for windows があるので、それを使おうと思ったら、Git Bashからも使えると分かったので、その手間もかかることなくですむのだ。Git for windows をインストールすれば自動的に入るので、それを使うことにした。

文字コードを調べる

   file -i WT.csv
   Non-ISO extended-ASCII text, with CRLF line terminators

Non-ISO extended-ASCII textでなんなんだ。実はSHIIF-JISのこと。
ここに詳しく記述されているとおり。
image.png

ただし、「findコマンド」ではなく「file」コマンドのほうが正しい。

文字コードを変換する

最後は下記のように変化すればOK

   iconv -f SHIFT-JIS -t UTF-8 WT.csv  > WT-UTF8.csv
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Sign upLogin
14
Help us understand the problem. What are the problem?