More than 5 years have passed since last update.

LOAD DATA FROM S3でファイル分割時の性能検証

Posted at 2019-11-22

auroraに大量データを登録しようとしましたが、bulk insertだと思ったように性能が出なかったので、LOAD DATA FROM S3 を試してみました

セットアップはいつもお世話になっている Developers.io さんの記事にお世話になりました
引っかかったのは、クラスターパラメーターグループにroleのARNを設定後、DBインスタンスの再起動をしないと反映されないところぐらいでした

対象のデータは、100万件で900Mほどのcsvファイルです

インスタンスタイプ	1ファイル	4ファイル	8ファイル	16ファイル
t2.small	5分04秒	4分30秒	4分30秒	4分30秒
r5.large	3分7秒	3分1秒	2分57秒	3分6秒

ファイル分割による、明確なレスポンスアップは確認できませんでした

今回の取り込みは、CSVファイルのごく一部に留まりましたので、それを無くしたらカラムマッピングのコストが無くなり、より良いレスポンスが得られるかも知れません
また検証して情報共有したいと考えています