Cloudストレージサービスに格納された複数ファイルを一括で読み込み、処理します。

Last updated at 2022-12-25Posted at 2022-12-06

この記事はインフォマティカ "Advent Calendar 2022 Day 9" の記事として書かれています。

はじめに

CloudのストレージサービスはData Lakeとして使用され、未加工データをひとまず保存する目的で使用されることも多いと思います。例えば、日付け名フォルダに全国のPOSレジから生データが大量ファイルとして格納されてるような状況を見たりします。店舗ID、エリアIDが違うだけで、それ以外は同じデータ構造であることが多く、数百というファイルを一度に読み込んでまとめて処理できれば楽ちんです。また、集計値を求めるために複数ファイルを一度に処理する必要があったりします。この記事ではAWS S3フォルダの複数ファイルを一括で処理する方法をご紹介します。

AWS S3での手順

とても単純な例ですが、フォルダ名"20220101"に処理対象データオブジェクト（圧縮されたファイル）が3ファイル格納されているとします。

ファイル名の"POS_"が共通で、2桁の数字が店舗IDだと思って下さい。
各ファイルの内容は以下のようになっています。

CDIサービスで処理する際には、通常、各ファイルをソースに設定してETL処理を行います。
こんな風に個別にファイルのラジオボタンをチェックしソースとして設定します。

もし、店舗が1000店あって、1000のデータオブジェクトを処理するために、いちいち手動で実行するとしたら大変です(;.;)（こういう課題を解決するために違う機能もあります。6th dayの動的マッピングタスク機能の投稿も参照して下さいね!）

そこで、CDIの AWS S3 コネクタのファイル一括処理機能を使って、複数ファイルを一括処理してみます。
そのためには"manifestファイル"という特別なファイルを使用します。
以下の形式で"manifestファイル"を作成します。

{
    "fileLocations": [{
		"WildcardURIs": [
			"20220101/POS_*.gz"
		]
	}, {
		"URIPrefixes": [
			"mseno/"                       
		]
	}],
	"settings": {
		"stopOnFail": "true"
	}
}

上記のmanifestファイルは、「バゲットmseno配下の20220101フォルダ内にあるPOS_で始まりgzで終わるファイルを一括で読み込む。」という設定です。今回はファイル名称をPOS_Files.manifestとします。このmanifestファイルを読み込むオブジェクトを格納しているフォルダに配置します。そして、ソース設定画面でmanifestファイルを選択します。注意点として、WildcardURIsに記述するURIですが、「」は1エントリー（1行）につき一カ所しか使えないません。"20220101//.gz"というを2つ含む表記は出来ないのでお気をつけ下さい。複数エントリーを記述することが可能なので、面倒ですが環境に合わせて記述して下さい。