sami1220
@sami1220

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

GCSのParquetデータをBigQueryに書き込む方法(バッチ処理)

解決したいこと

GCPのCloudStoragに保存している、Parquet型データをBigQueryテーブルに書き込む処理を毎日1回行う(バッチ処理)

この実装について困ってます。

発生している問題

今までは、以下のようなCSVをGCSに保存してdataflowの 「Text Files on Cloud Storage to BigQuery」 テンプレートを使ってBigQueryに書き込むジョブを実行しておりました。

Date Company Tel Address Staff Lank
2022-04-01 ABC株式会社 03−0000−0000 港区x-x-x 田中 0
2022-04-04 DEF株式会社 03−0000−0000 渋谷区x-x-x 鈴木 1
2022-04-04 DEF株式会社 03−0000−0000 渋谷区x-x-x 鈴木 1
2022-06-30 XYZ株式会社 03−0000−0000 新宿区x-x-x 山田 1

・合計1000行ほどのデータ

---各カラムのスキーマ---
Date:Datetime
Company:Str
Tel:Str
Address:Str
Staff:Str
Lank:Int

■ 今後の変更点

・CSV→ParquetでGCSに保存 (上記のテンプレートが使えない)
・GCS→BigQueryの書き込みを毎日1回バッチ処理で行う

■ 実装したいこと

・GCSのParquet型データをBigQueryテーブルに書き込む処理を毎日1回行うバッチ処理

上記の変更で今までのテンプレートが使えない+他のテンプレートでも使えそうなものがなく困っておりました。

実装する上で、今回のジョブに合うGCPサービス(今の所dataflowで考えてました)や具体的な実装方法などご教示いただけると幸いです。

使用言語はpythonかJavaScriptです。

0

No Answers yet.

Your answer might help someone💌