クラウドの進化はエンジニアにとってはとてもありがたいです。今までは全部自分達で構築していたものをクラウドで機能を組み合わせる事でシステムを実現できる。
特にAWSさんのお陰でシステム連携がとても便利になりました。
今回は、AWSのS3のGlueとAthenaで色々やった話です。
要件
- POSデータを外部から当システムに取り込みデータを反映させたい
- 即時性はいらない
- データは新規のみ
- 定期実行でよい
- 既存システムには影響を書けたくない(外で構築)
- データ量は大きい
実現方法
色々と方法はあると思いますが、やったのは、こちら
ポイント
- RDS(Aurora)は、snapshotでS3へParquet形式で保管
- S3からの自動処理は、lambdaで処理
- CSVからParquet変換で高速で小データサイズ化
- CrawlerでAthenaのテーブル化でSQL実行可能
- 時間がかかるバッチ処理は、EC2利用
まとめ
クラウドの利用で運用保守のコストが下がるだけでなく、セキュリティリスクも下がり、全体的なシステム価値が上がります。運用保守を任せられると本業の開発にも集中できて企業価値も上がります。
積極的クラウドを利用しましょう!
今後
今後、データサイエンス周りの記事も含めてアップしていきたいと思ってます。
モチベーションアップのためフォロー、イイねお願いします。