GCSのParquetデータをBigQueryに書き込む方法(バッチ処理)
解決したいこと
GCPのCloudStoragに保存している、Parquet型データをBigQueryテーブルに書き込む処理を毎日1回行う(バッチ処理)
この実装について困ってます。
発生している問題
今までは、以下のようなCSVをGCSに保存してdataflowの 「Text Files on Cloud Storage to BigQuery」 テンプレートを使ってBigQueryに書き込むジョブを実行しておりました。
Date | Company | Tel | Address | Staff | Lank |
---|---|---|---|---|---|
2022-04-01 | ABC株式会社 | 03−0000−0000 | 港区x-x-x | 田中 | 0 |
2022-04-04 | DEF株式会社 | 03−0000−0000 | 渋谷区x-x-x | 鈴木 | 1 |
2022-04-04 | DEF株式会社 | 03−0000−0000 | 渋谷区x-x-x | 鈴木 | 1 |
・ | |||||
・ | |||||
・ | |||||
2022-06-30 | XYZ株式会社 | 03−0000−0000 | 新宿区x-x-x | 山田 | 1 |
・合計1000行ほどのデータ
---各カラムのスキーマ---
Date:Datetime
Company:Str
Tel:Str
Address:Str
Staff:Str
Lank:Int
■ 今後の変更点
・CSV→ParquetでGCSに保存 (上記のテンプレートが使えない)
・GCS→BigQueryの書き込みを毎日1回バッチ処理で行う
■ 実装したいこと
・GCSのParquet型データをBigQueryテーブルに書き込む処理を毎日1回行うバッチ処理
上記の変更で今までのテンプレートが使えない+他のテンプレートでも使えそうなものがなく困っておりました。
実装する上で、今回のジョブに合うGCPサービス(今の所dataflowで考えてました)や具体的な実装方法などご教示いただけると幸いです。
使用言語はpythonかJavaScriptです。
0