Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
3
Help us understand the problem. What is going on with this article?
@matobaa

gawk 4.0 で csv をもっとうまく扱う

More than 5 years have passed since last update.

awkでCSVを扱うために、gawk 4.0 で FPAT=([^,]+)|(\"[^"]+\") を指定します。
列の値が空文字列の場合 (,,, みたいにカンマが連続する場合)には列数を数え損ねるのですが、FPAT=(,?[^,]+)|(,?\"[^"]+\") と書いたらなんかうまくいきました。

CC-BY-SA-4.0 2015-07-04 by matobaa+qiita@gmail.com

制限事項

  • ダブルクォートの中に改行がある形式には対応していない。
  • ダブルクォートをエスケープしたものには対応していない。
  • 1列目以外は切り出し文字列の頭に,が入るので、もし加工するなら sub(",","",$N) してから加工して sub("^",",",$N) してやる必要がある。

どういう意味?

FPAT は gawk 4.0 以降でつかえる、フィールド切り出しルールを正規表現で指定できる変数です。

  • [^,]+ カンマ以外からなる文字列
  • \"[^"]+\" ダブルクォートで始まり、ダブルクォートを含まない文字列をへて、ダブルクォートで終わる

未確認なこと

アクションを指定しない場合に print を補うか、補わないかにばらつきがあるような気がする。
とりあえず、可搬性を高めるために、{next} か {print} を書いてます。

3
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
matobaa
フルスタックエンジニア。といってもイマドキのWeb系についていけてないことが発覚している。

Comments

No comments
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account Login
3
Help us understand the problem. What is going on with this article?