Go to Qiita Advent Calendar Top

1

More than 5 years have passed since last update.

awkで文字列を整数にして出力したい

Posted at 2018-08-20

やりたいこと

タブ等で区切られたテキストファイルの特定の列の値を整数にして出力したい
例：「1,000（桁区切りのコンマつき）」や「1000.0（小数点のドットつき）」を「1000」として出力したい
前提条件として、指定した列には意味的に整数値しか入らず列の挿入欠失によるズレは考慮しなくて良いものとする
awkでさくっとできるだろうと試したが、うまくいかなかった

テスト環境

Linux Mint 18.1
GNU Awk 4.1.3

やったこと

テストデータ

3列×3行のタブ区切りファイルを作成
1行目はヘッダー、2・3行目はデータ行
1列目は文字列、2・3列目は整数にしたい
しかし3行目の2・3列目の値が整数になっていない

$ cat test1.txt
str num1    num2
FOO 1000    2000
BAR 1,000.0 2,000

awkでprintすると

$ awk -F"¥t" '{print $1,$2,$3}' test1.txt
str num1    num2
FOO 1000    2000
BAR 1,000.0 2,000

そのまま表示される

整数として出力するために試したこと

計算してから出力

数値として扱ってあげることで数値としての自覚が芽生えるのではないか
0を足したり1を掛けたりしてからprintしてみる

$ awk -F"¥t" '{print $1,$2+0,$3*1}' test1.txt
str num1    num2 0 0
FOO 1000    2000 0 0
BAR 1,000.0 2,000 0 0

だめでした
しかもなんか末尾に0が増えた
状況は悪い方へ向かっています

intで型変換

いいかお前は整数なんだ！
intで囲む

$ awk -F"¥t" '{print $1,int($2),int($3)}' test1.txt
str num1    num2 0 0
FOO 1000    2000 0 0
BAR 1,000.0 2,000 0 0

だめでした

printf

printfならきっとなんとかしてくれる

$ awk -F"¥t" '{printf "%s %d %d¥n", $1, $2, $3}' test1.txt
str num1    num2 0 0
FOO 1000    2000 0 0
BAR 1,000.0 2,000 0 0

これもだめでした

まとめ

なぜできないのか。何か根本的に間違えているのか
末尾に0がつくのはどうしてなのか
もらったファイルがアナーキーなのはわれわれの業界ではよくあることなのでこういうちょっとしたことにも対応できるようにしたい

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1