auroraに大量データを登録しようとしましたが、bulk insertだと思ったように性能が出なかったので、LOAD DATA FROM S3 を試してみました
セットアップはいつもお世話になっている Developers.io さんの記事にお世話になりました
引っかかったのは、クラスターパラメーターグループにroleのARNを設定後、DBインスタンスの再起動をしないと反映されないところぐらいでした
対象のデータは、100万件で900Mほどのcsvファイルです
インスタンスタイプ | 1ファイル | 4ファイル | 8ファイル | 16ファイル |
---|---|---|---|---|
t2.small | 5分04秒 | 4分30秒 | 4分30秒 | 4分30秒 |
r5.large | 3分7秒 | 3分1秒 | 2分57秒 | 3分6秒 |
ファイル分割による、明確なレスポンスアップは確認できませんでした
今回の取り込みは、CSVファイルのごく一部に留まりましたので、それを無くしたらカラムマッピングのコストが無くなり、より良いレスポンスが得られるかも知れません
また検証して情報共有したいと考えています