More than 3 years have passed since last update.

AWS上でデータの収集、加工、分析を行う

Posted at 2021-11-09

はじめに

kaggleなどでデータ分析の勉強を行う際は、既に加工されて分析しやすい形になったデータに対して分析を行うことが多いと思います。しかし実務ではデータの収集から行う必要性があったり、分析に適さない生データを扱うことになると思います。

そこで一からデータの入手・加工・分析までの流れをやってみようということと、AWSの経験値を積むために、AWS上で一連の流れを処理するためのアーキテクチャを作成しました。

学習方法

AWSについてはネットで調べつつ繋げていくのがメインでした。
個々の実装やサービス同士の繋げ方については、別で記事をあげていきたいなぁと思ってます。

スクレイピングについては、udemyの「【4つの実案件で学ぶ】Python Webスクレイピング完全パック」で学びました。実案件を交えつつ、非常に分かりやすい内容となっています。

作ったもの

一週間に一回、バイク王さんの中古バイクのデータを取得し、データ分析を行える状態まで持っていくアーキテクチャです。
下図が今回作成したものになります。

①EventBridgeで一週間に一回、Lambdaのスクレイピングを実行(データ収集)
②スクレイピングしたpickleデータがS3に保存されたことをトリガーとして、データ加工用のLambdaが実行(データ加工)
③最終的にEC2上にdockerでデータ分析環境を作成し、データ分析を行う(データ分析)

といった流れになります。
Seleniumを用いたスクレイピングを実装するのはかなり大変でした…

個々の実装内容について、記事を追加していければと考えています。

・DockerでEC2上にデータ分析環境を作る
https://qiita.com/nessyyamamoto/items/245a2b5b16f935e87b85

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up