4
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Python(Django) x Docker x AWSAdvent Calendar 2023

Day 12

【Django】CSVファイルをfixture形式のJSONに一瞬で変換する方法 (Pandas利用)

Posted at

概要

DjangoのFixturesって初期DB構築時にとても便利ですが、エクセルとかCSV形式で作成したデータをfixtures形式のJSONに変換してくれるサービスやコードが見当たらなかったので作ってみました。

前提

下記サンプルコードと同ディレクトリにCSVファイルが入ったディレクトリとJSON(fixtures)を入れるディレクトリがある前提です。それぞれcsvfixturesというディレクトリ名とします。

また、pk1から順番に採番してある想定とします。

CSVファイルは以下を使います。
image.png

サンプルコード

import pandas as pd
import json
import os

csv_directory ='./csv'
fixtures_directory =  './fixtures'

for filename in os.listdir(csv_directory):
    if filename.endswith('.csv'):
        csv_file_path = os.path.join(csv_directory, filename)
        
        df = pd.read_csv(csv_file_path, dtype=str) 
        
        fixtures_data = []
        
        for _, row in df.iterrows():
            model = row['model']
            pk = int(row['pk'])
            fields = {key: str(row[key]) for key in row.index[2:]}
            
            fixture = {
                "model": model,
                "pk": pk,
                "fields": fields
            }
            fixtures_data.append(fixture)

        fixtures_filename = f"{os.path.splitext(filename)[0]}_initial_data.json"
        fixtures_file_path = os.path.join(fixtures_directory, fixtures_filename)
        with open(fixtures_file_path, 'w', encoding='utf-8') as outfile:
            json.dump(fixtures_data, outfile, ensure_ascii=False, indent=4)
        
print("Fixtures作成が完了しました。")

上記コードの実行により、fixturesディレクトリにJSON形式で保存してくれます。
複数のCSVファイルがあってもいずれもそのファイル名をもとにJSONファイル名を指定するので、一括変換も楽です。

結果は以下の通りです。

[
    {
        "model": "common.FruitCd",
        "pk": 1,
        "fields": {
            "fruit_cd": "1",
            "fruit_nm": "リンゴ"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 2,
        "fields": {
            "fruit_cd": "2",
            "fruit_nm": "みかん"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 3,
        "fields": {
            "fruit_cd": "3",
            "fruit_nm": "スイカ"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 4,
        "fields": {
            "fruit_cd": "4",
            "fruit_nm": "メロン"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 5,
        "fields": {
            "fruit_cd": "5",
            "fruit_nm": "いちご"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 6,
        "fields": {
            "fruit_cd": "6",
            "fruit_nm": "レモン"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 7,
        "fields": {
            "fruit_cd": "7",
            "fruit_nm": "キウイ"
        }
    },
    {
        "model": "common.FruitCd",
        "pk": 8,
        "fields": {
            "fruit_cd": "8",
            "fruit_nm": "バナナ"
        }
    }
]

詳細

一つ一つ詳細に解説。

  • os.listdir(csv_directory):指定されたCSVディレクトリ内のファイルリストを取得
  • filename.endswith('.csv'):CSVファイルのみを処理対象としてフィルタリング
  • pd.read_csv():各CSVファイルをDataFrame(データテーブル)として読み込む
    • dtype=strとしているのは、Pandasは自動的に列のデータ型を推測するようで、001みたいなコードがゼロ落ちすることがあるためです。この辺は突き詰めていくとかなり深くなるところですが...
  • for _, row in df.iterrows():DataFrameの行を反復処理。
    • rowは、DataFrame内の各行のこと(Pandas Seriesオブジェクト)
    • iterrows()メソッドはDataFrameの各行を反復処理するためのメソッド
    • _部分はiでもxでも良いですが、_(アンダースコア)は一般的に「無視されるべき変数」として扱われます。上記コードの場合は、「行番号やインデックスは無視してる変数だよ〜」ってことになります。

ようは、使わない返り値に変数を割り当てるのはナンセンスだから、アンダースコアで無視しましょうということ。
引用元:【備忘録】Pythonにおけるアンダースコア"_"の役割について

  • pk = int(row['pk'])
    • プライマリーキーなので空白値はない前提ですが、空白値を許容する場合は、以下のようにします。
pk = int(row['pk']) if not pd.isnull(row['pk']) else None

この場合はnullが入ります。上記がない場合は以下のエラーになります。

ValueError: cannot convert float NaN to integer
  • {key: str(row[key]) for key in row.index[2:]}
  • ⑦最初の2つの列(modelpk)を除いた残りの列のインデックスを取得した後、各列のインデックスをキーとして、その列の値を文字列に変換し、辞書のキーと値として追加。
  • ⑧各行の内容を辞書として抽出し、特定のキー('model'、'pk'、およびフィールド名)と値のペアを持つJSONフィクスチャデータに追加します。これにより、直後のfixturesには以下が格納されます。
{'model': 'common.FruitCd', 'pk': 1, 'fields': {'fruit_cd': '1', 'fruit_nm': 'リンゴ'}}
{'model': 'common.FruitCd', 'pk': 2, 'fields': {'fruit_cd': '2', 'fruit_nm': 'みかん'}}
{'model': 'common.FruitCd', 'pk': 3, 'fields': {'fruit_cd': '3', 'fruit_nm': 'スイカ'}}
{'model': 'common.FruitCd', 'pk': 4, 'fields': {'fruit_cd': '4', 'fruit_nm': 'メロン'}}
{'model': 'common.FruitCd', 'pk': 5, 'fields': {'fruit_cd': '5', 'fruit_nm': 'いちご'}}
{'model': 'common.FruitCd', 'pk': 6, 'fields': {'fruit_cd': '6', 'fruit_nm': 'レモン'}}
{'model': 'common.FruitCd', 'pk': 7, 'fields': {'fruit_cd': '7', 'fruit_nm': 'キウイ'}}
{'model': 'common.FruitCd', 'pk': 8, 'fields': {'fruit_cd': '8', 'fruit_nm': 'バナナ'}}
  • json.dump():作成されたJSONデータをファイルに書き込み
  • ⑩ファイル名は元のCSVファイル名をベースに'XXX_initial_data.json'という名前で保存。
    • {os.path.splitext(filename)[0]}は、拡張子を取り除いたファイルのベース名を取得する方法。os.pathモジュールのsplitext()関数が分割してくれ、0番目の要素(=拡張子以外の名前)を取得します。

以上で、fixturesに変換することができました。
初期DB構築時に、まずはエクセルで大量のデータを準備する、というケースは多いと思うのですが、なぜかネット記事あさってもこのような記事に辿りつきませんでした。

こちらを使うと一括で複数のCSVファイルをFixtures形式のJSONファイルに変換できて楽です。
Django同志の一助になればと思います!

4
3
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?