概要
業務にて、データ分析のために拡張子が.csv のファイルを扱う機会があった。
pandas.DataFrame
にデータを食わせて取得しても良いのだが、コマンドラインでささっと数と行数・列名(カラム名)一覧を確認したかったので、備忘録として残しておく。
行数を取得
wc
を使う。
terminal
$ wc -l hoge.csv
30
列数を取得
awk
を使う。
terminal
$ awk -F ',' 'NR==1{print NF}' hoge.csv
1000000 hoge.csv
条件で1行目NR==1
を指定し、列数(NF)
を出力している。
列名を取得
awk
を使う。
terminal
$ awk -F ',' 'NR==1{print $0}' hoge.csv
id, age, gender, time, created_at, updated_at, ...
条件で1行目NR==1
を指定し、1行目の文字列全体$0
を出力している。
列数、行数や列名(カラム名)一覧の確認程度であれば、Jupyter
を開かずともLinuxコマンドで実現できるので、知っておきたいですね。
ささっとコマンドが書けると、ちょっと楽しい。