はじめに
TwitterのAPIが無料だった時に構築していた簡易データ基盤の内容を記載しようと思う(供養)
構築した背景
以前、ある検査の分析を行っていており、ふとTwitterでその検査名を調べたところ結構参考になる感想がちらほら...
分析のインスピレーションになると考えデータ収集を決意
構成図・説明
構成図
説明
①Cloud FunctionsでTwitterAPIで特定の文字を含むツイートを収集。
②①を加工して、Bigqueryに格納。pandasでデータ加工後にBigqueryに書き込み。
※ 下記ライブラリでpandasをBigqueryに書き込み可能。
③Cloud Schedulerで定期的にCloud Functionsを実行
感想
GCPを使うと簡単に低コストでデータ基盤が作成できるなと感動した。
また、実際に仮説立てやドメイン知識習得にも役立った。
集めたデータにアノテーションをしてより多くのツイートから関係のあるツイートを判別するモデルも作成しようと考えていたが、人手が足りず断念。
転職もあり今度は違うワードで構築しようとしたがまさかの知らせ。。。
Twitterはデータの宝庫と思っていただけにこの知らせは悲しかった(ノД`;)