#はじめに
kaggleなどでデータ分析の勉強を行う際は、既に加工されて分析しやすい形になったデータに対して分析を行うことが多いと思います。しかし実務ではデータの収集から行う必要性があったり、分析に適さない生データを扱うことになると思います。
そこで一からデータの入手・加工・分析までの流れをやってみようということと、AWSの経験値を積むために、AWS上で一連の流れを処理するためのアーキテクチャを作成しました。
#学習方法
AWSについてはネットで調べつつ繋げていくのがメインでした。
個々の実装やサービス同士の繋げ方については、別で記事をあげていきたいなぁと思ってます。
スクレイピングについては、udemyの「【4つの実案件で学ぶ】Python Webスクレイピング完全パック」で学びました。実案件を交えつつ、非常に分かりやすい内容となっています。
#作ったもの
一週間に一回、バイク王さんの中古バイクのデータを取得し、データ分析を行える状態まで持っていくアーキテクチャです。
下図が今回作成したものになります。
①EventBridgeで一週間に一回、Lambdaのスクレイピングを実行(データ収集)
②スクレイピングしたpickleデータがS3に保存されたことをトリガーとして、データ加工用のLambdaが実行(データ加工)
③最終的にEC2上にdockerでデータ分析環境を作成し、データ分析を行う(データ分析)
といった流れになります。
Seleniumを用いたスクレイピングを実装するのはかなり大変でした…
個々の実装内容について、記事を追加していければと考えています。
・DockerでEC2上にデータ分析環境を作る
https://qiita.com/nessyyamamoto/items/245a2b5b16f935e87b85