LoginSignup
4
3

More than 5 years have passed since last update.

gawk 4.0 で csv をもっとうまく扱う

Last updated at Posted at 2015-07-06

awkでCSVを扱うために、gawk 4.0 で FPAT=([^,]+)|(\"[^"]+\") を指定します。
列の値が空文字列の場合 (,,, みたいにカンマが連続する場合)には列数を数え損ねるのですが、FPAT=(,?[^,]+)|(,?\"[^"]+\") と書いたらなんかうまくいきました。

CC-BY-SA-4.0 2015-07-04 by matobaa+qiita@gmail.com

制限事項

  • ダブルクォートの中に改行がある形式には対応していない。
  • ダブルクォートをエスケープしたものには対応していない。
  • 1列目以外は切り出し文字列の頭に,が入るので、もし加工するなら sub(",","",$N) してから加工して sub("^",",",$N) してやる必要がある。

どういう意味?

FPAT は gawk 4.0 以降でつかえる、フィールド切り出しルールを正規表現で指定できる変数です。

  • [^,]+ カンマ以外からなる文字列
  • \"[^"]+\" ダブルクォートで始まり、ダブルクォートを含まない文字列をへて、ダブルクォートで終わる

未確認なこと

アクションを指定しない場合に print を補うか、補わないかにばらつきがあるような気がする。
とりあえず、可搬性を高めるために、{next} か {print} を書いてます。

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3