More than 3 years have passed since last update.

CSVファイルを特定の列をキーにファイル分割

Posted at 2022-04-29

はじめに

CSVファイルを特定の日付の列を使って、別々のファイルにする処理を作ってみました。
作った背景は、CSVファイルをBigQueryへ取り込もうと思ったのですが、BigQueryではシャーディングを使いたくて、そうするとCSV自体が分割してた方がよく、前処理としてCSVを分割したくなったためです。

なお、入力ファイル１行ごとに出力ファイルをオープンするという駄作。誰かのためになればと思い、恥を忍んで公開ですｗ
改善の余地は大いにありますが、元ファイルは約20万行、出力ファイル数(日付のパターン数)は850個で、約1分でした。Core i7 3.5GHz、メモリ16GBの2012年くらいに作ったデスクトップで、2022年現在ではハイスペックでもないけど普段使いなら悪くもないくらいの環境で。なので１度実行するだけなら別にいいかなと思っています。

ポイント：生のCSVの行のままコピペしたかった

要件的にも技術的にも大したことないプログラムだけど、１点だけ変なことをやってるので、そこだけ書いておきます。

このプログラムは特定の列を取り出して出力ファイルを決定するのですが、取り出すためにはCSVを真面目にパースしないといけない。パースした結果の配列を使って出力すると、ダブルクオーテーションを自分でつけたりして、元データとは内容が変わってしまう。それが嫌だったため、変なことに手を出したという次第です。

その目的のため、同じファイルのwithの入れ子をしてます。生のCSV文字列を読むためのf→raw_lineと、CSVのデータをパースして特定の列を取り出すためのf_forcsv→csv_recとして分けてます。

split_csv_file.py

    # ファイルを読んで出力
    # 生のファイルを読むファイルポインタと、CSVとして読むポインタを各々開く(もっとスマートな方法がありそう)
    header = ''
    with open(input_csv_file, mode='r', encoding='utf-8') as f:
        with open(input_csv_file, mode='r', encoding='utf-8') as f_forcsv:
            csv_reader = csv.reader(f_forcsv)
            for i, (raw_line, csv_rec) in enumerate(zip(f, csv_reader)):
                if i==0:
                    header = raw_line
                    continue
                
                # 日付列の値を取得
                split_key = csv_rec[target_column_index]
                #print(split_key)
                
                # CSV出力
                output_csv(output_file_base, split_key, header, raw_line)

ちなみに、最初は下記のように書いて、おかしな動きになりました。

カッコつけてスマートにやろうとしてダメだった例

    with open(input_csv_file, mode='r', encoding='utf-8') as f:
        csv_reader = csv.reader(f)
        for i, (raw_line, csv_rec) in enumerate(zip(f, csv_reader)):
            ～

for文の１回のループでfのイテレーターを、fとしてもcsv_readerとしても呼び出し、２回呼び出してしまうためです。

おわりに

「同じ入力ファイルを２つ開く」というダサい点について、スマートな書き方があったら教えてください。

なお「入力ファイル１行ごとに出力ファイルをオープンする」というダサい点について、出力ファイルポインタを全部持っておいて開きっぱなしにして・・・という解決策は、やろうと思えばできるかもとは思ってますが、めんどくさいのでやりませんｗ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up