0
0

More than 1 year has passed since last update.

GCPで簡易データ収集基盤作成

Last updated at Posted at 2023-04-17

はじめに

TwitterのAPIが無料だった時に構築していた簡易データ基盤の内容を記載しようと思う(供養)

構築した背景

以前、ある検査の分析を行っていており、ふとTwitterでその検査名を調べたところ結構参考になる感想がちらほら...
分析のインスピレーションになると考えデータ収集を決意

構成図・説明

構成図

structure.png

説明

①Cloud FunctionsでTwitterAPIで特定の文字を含むツイートを収集。
②①を加工して、Bigqueryに格納。pandasでデータ加工後にBigqueryに書き込み。
※ 下記ライブラリでpandasをBigqueryに書き込み可能。

③Cloud Schedulerで定期的にCloud Functionsを実行

感想

GCPを使うと簡単に低コストでデータ基盤が作成できるなと感動した。
また、実際に仮説立てやドメイン知識習得にも役立った。

集めたデータにアノテーションをしてより多くのツイートから関係のあるツイートを判別するモデルも作成しようと考えていたが、人手が足りず断念。
転職もあり今度は違うワードで構築しようとしたがまさかの知らせ。。。

Twitterはデータの宝庫と思っていただけにこの知らせは悲しかった(ノД`;)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0