0
5

More than 1 year has passed since last update.

AWS上でデータの収集、加工、分析を行う

Posted at

はじめに

kaggleなどでデータ分析の勉強を行う際は、既に加工されて分析しやすい形になったデータに対して分析を行うことが多いと思います。しかし実務ではデータの収集から行う必要性があったり、分析に適さない生データを扱うことになると思います。

そこで一からデータの入手・加工・分析までの流れをやってみようということと、AWSの経験値を積むために、AWS上で一連の流れを処理するためのアーキテクチャを作成しました。

学習方法

AWSについてはネットで調べつつ繋げていくのがメインでした。
個々の実装やサービス同士の繋げ方については、別で記事をあげていきたいなぁと思ってます。

スクレイピングについては、udemyの「【4つの実案件で学ぶ】Python Webスクレイピング完全パック」で学びました。実案件を交えつつ、非常に分かりやすい内容となっています。

作ったもの

一週間に一回、バイク王さんの中古バイクのデータを取得し、データ分析を行える状態まで持っていくアーキテクチャです。
下図が今回作成したものになります。

image.png

①EventBridgeで一週間に一回、Lambdaのスクレイピングを実行(データ収集)
②スクレイピングしたpickleデータがS3に保存されたことをトリガーとして、データ加工用のLambdaが実行(データ加工)
③最終的にEC2上にdockerでデータ分析環境を作成し、データ分析を行う(データ分析)

といった流れになります。
Seleniumを用いたスクレイピングを実装するのはかなり大変でした…

個々の実装内容について、記事を追加していければと考えています。

・DockerでEC2上にデータ分析環境を作る
https://qiita.com/nessyyamamoto/items/245a2b5b16f935e87b85

0
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
5