More than 3 years have passed since last update.

ツイートを長期間収集する実験(プログラム準備編(1))

Last updated at 2022-05-04Posted at 2016-10-03

注意事項の追記(2022年5月時点)

最初に作成したときから既に7年とか経ちそうな割に、未だにLGTMとかされているため、念のために追記します。
本稿記載のAPIは、現時点で既に存在しないAPI(2018/08に廃止)です。
代替として、「/statuses/filter」を用いる手段がありましたが、こちらも2020年10月末の廃止が宣言されました。
API 2.0の「/2/tweets/search/stream」が使えるようですが、こちらについては調べていません。
私自身は、「/search/tweets」を使って遡って取得する方向に逃げました。詳細はこちら。

前回まで

とりあえず要求仕様(?)は決まった。
- 10月末までに、1月中旬までTwitterの特定ワードを含むツイートすべて取得するプログラムを作る
- 手持ちの機材使うので、ひとまずクラウドは無し。Dockerとか組み合わせて実行環境作りませう。
- DBはMongoDBを用いる(仮)。JSON加工無しにぶち込んで後から計算するなら問題なし。
- プログラムは今後を踏まえてPythonにしよう。先行者も多いことだし。
じゃあひとまずプログラム作るべー
- 環境整えて、一番基本になるプログラムからいってみよー　<- New!

まず考えること

　やることは決まっていて、足回りも決まっていているなら、まずはググることから始めちゃうのが自分流です。
　要するに、「自分がやりたいと思ったことの8割は、誰かが先行してやっている」というヤツです。
　Qiitaの中だけでも、同じようなコト(というか、より高度なこと)をやっている方がいて、大いに参考にさせていただくしかないのですが、残念ながらそのものずばり、という事例はなし。Stack Over Flowとかも調べた範囲では、要求仕様をちゃんと満たせるプログラムをまんま公開してるような事例はありませんでした。
　あったら楽だったのになぁ……_ちっ

残念なことにPublic Stream使っていないとかの事例が多い。
切断(特に予期しない、または向こう側(Twitter)からの切断)からの再接続について考慮されてるものが少ない

　スクリプトコピペしまくって形にする、~~スクリプトキディ的な~~個人的使用の範囲で要件を充足するものを作るにしても、この辺は自分でまとめる必要がありそうです。

そもそもなんでPublic Stream？

　Twitterからのデータの取得は大まかに2種類有り、「REST API使用」と、「Streaming API使用」の2種類があります。
　RESTというのがメッセージを送信して、その結果を返してもらう、を繰り返す手段であるのに対し、Streaming APIは、一度命令を送信したら延々そこに対して結果を送ってくる、というものです。
(と、理解してます。詳細は文献に当たって確認してください。)

　そもそもなんで Public Steram にするか、というと、

想定される流量が、REST形式で取得可能な限界を超える可能性が大いにあった
Twitter API ポケットリファレンスを買ってきて読む限り、(読むことだけ想定するなら)RESTでやるのは意外とめんどくさそう。

　ぶっちゃけ、なんか適当なライブラリ持ってきてリードだけするなら、Stream APIの方がRESTでやるよりも面倒が少なそうという大変怠惰な理由です。送られてきたものをDBにぶち込み続けるだけで済むはずなので。

　Stream APIにも複数あって、「ガチにTwitterに流れる全部(要契約)」、「自身のタイムライン上のツイート」、「全体の1%をランダム」、「全体に対してキーワード・ロケール等で絞った結果」まで複数ありますが、ここでは最後の「指定の検索ワードで絞ったもの」を使います。Public Stream というとこれらの総称っぽい使い方のようですが、その辺はひとまずおいといて。
(ちょっと調べただけなんですが、Filferで取得出来るツイートは、全体1%、ではなく全部、という理解で良いんですかね？)

切断と再接続

　ロートル人間だからでしょうか、Stream APIがHTTP接続を維持する、といわれてもびっみょーに信頼できないというか、絶対に何事も無くても切断される。むしろ何も問題が無いからこそ切断されると警戒してしまう訳です。
　先の参考書(ポケットリファレンス)を見ても、何かあったら切断はされるものだから再接続は想定する必要がある、的な書き方をされています。
　……が、著名なライブラリのページを見てみても、自力で実装している例を見ても、ざっと見渡した範囲で切断後の再接続について記載してるページが無い。
　……APIでそこまでやってくれるんけ？　だとしちゃー、これほど楽なことは無いのですが……

(わかっている人向けの注：コーディングしつつ、思い出しつつで脳内時系列に沿って書いてますので、ひとまずツッコミはお待ちください)

ライブラリの選定

　いろいろ考えることは多いのですが、~~コピペしまくってお茶を濁す~~先達の素晴らしいコードを参考にする、という観点で日本語資料の多いTwitter接続のライブラリを検討することに。

当然Stream APIに対応している必要がある
ググって速攻答えが出てくるのが理想。
　……とかを踏まえて、Tweepyを利用することに。

　データベース側についても同様の観点でライブラリを探したところ、

とにかくコーディングの記述量が少なくて済む
ググればだいたい回答が見つかる。
MongoDBオフィシャルとか、そういうのに近いものっぽい
　という理由でPyMongoを使う事に決定。

　がっちがちの鉄板？　そりゃあシロートがどうにかしないとアカンいうなら定番使うしか……

開発環境とか。

　何を使うかを決めたとして、じゃあ開発環境、およびテスト環境を用意しましょう。
　私はVBから入ってC → VC++ → C# とやってきたガッチガチのWin屋です。開発に使える環境も当然Windowsですので、リリース=実施直前まではWin上で開発できるのが理想であるのは言うまでもありません。
というか、IDE(統合開発環境)がないと基本即死です。ましてやLinux上でどうにかせぇ言われたら、土下座するしかありません。

　幸い、スクリプト言語なので環境依存性はたいしたことはなく、昨今はライブラリ等にしてもインストールが自動化されていることもあり、大昔に比べれば苦労はだいぶ減っている……筈です。

Python とその周辺ライブラリを一括インストールする手段として、Anacondaを利用。環境変数だのまで全部お任せインストールで問題なし。
MongoDBどうすんべー、と一瞬考えたものの、Windows版が存在するのでそれでいいや、と言う事に。
最初はHyper-Vも使えるDocker for Windows上に立てる、というも考えたものの、実際試すとデータの永続化で躓く上に解決策も失敗するので、~~めんどくさいし~~Win版でいいや、と言う事に。

　インフラ周りはこれでいいとして、やっぱIDE使いたいよねー、とか~~世の中なめた~~使い慣れた環境に未練を残してググっていたところ、Python Tools for Visual Studioなんていうすんばらしいものが。しかもAnacondaとかのWin版Python呼んで、その場で簡易デバッグできる。
　もはやこれしか無い、という理由により、

Anaconda (Python 3.5.2 :: Anaconda 4.1.1 (64-bit) )
MongoDB for Win(MongoDB shell version: 3.2.10)
VisualStudio2013 + Python Tools For Visual Studio(Ver.2.2.2)
Tweepy + PyMongo(取得時の最新)

　という構成で開発・テスト実施することに決定。懸念としては、

本来実行環境での実行で問題は出ないか。環境に依存する部分はないか。
開発環境で十分なテストが出来るか。想定し得ない問題は発生しないか。
開発環境と実行環境でインフラ周りのバージョンが変わる可能性

　あたりですが、……まあ、どっちにしても最後は実機テスト必要だし、よほどの書き方しなければ問題は発生しない、筈、ということでひとまず放置。
(これがお仕事なら、そこら辺みっちり詰めないとあかんでしょうが……)

プログラムの要求仕様

　今回作るプログラムは、動かし始めたら何が何でも3ヶ月動かし続け、止めることまかりならんという鬼の掟を背負っています。よって、必須の機能に絞って実装し、それ以外は別の手段でなんとかすることにします。

最優先で実装する機能

TwitterからのPublic Stream 受信
受信したデータのMongoDBへの格納
不意の切断時に再接続を実施する機能

第二優先として実装する機能

接続、切断、再接続など、事象が発生した場合にその旨を記録する機能
上に加え、TwitterのDirect Messageで、事象発生を通知する機能(連絡くらいはほしいという親心)

可能なら実装する機能

1日の流量やストレージの残容量などについての通知。

余力があれば検討する機能

特定の日付日時になったら自動で終了する

要求仕様に含めない機能

ブラックリストによる特定アカウントはじき機能(プログラム内の機能として)。
リアルタイム解析を想定した、ツイートデータの加工(プログラム内の機能として)

　まあ、こんなものでしょう。優先度の高い要素から突っ込んでいって、少しずつ完成度を高めていくようにしましょう。

とりあえずTwitter受信プログラム

　「オライリーのPythonチュートリアルを手元に置く」「わかんなかったらググる」の誓いを胸に、とりあえず実証プログラムの作成開始。Visual Studioでプロジェクトの新規作成から、「Python Application」を指定すれば、なじみのエディタでPythonのコードを書く準備ができあがります。これは便利。
　チュートリアル的なコードを打ったら、[F5]で実行。C言語のコンソールアプリと同じ手順で実行まで試せるので、本当にストレスがありません。ステップ実行出来ないのが残念だなー。

　さて、まずTwitterとお話しできなければ論外なので、その辺作るところから始めましょう。
　最初にTweepyを導入する必要があります。Anaconda Promptから「pip」コマンド打つのかなー、とかおもったら、これもVisual Studio上から実行可能。

メニューバーの[表示]→[その他のウインドウ]→[Python Environments]を選択して表示。
[Python Environments]ウインドウの中央ドロップダウンから、[pip]を選択。
[Search PyPl and installed packages]のテキストボックスに「tweepy」と入力。
『"pip install tweepy" from PyPl』をクリック。で、インストール完了。

　NuGet並の楽さっすね。

　とりあえずググって見つかるいくつかのページや、本家Tweepyのチュートリアルを元に、Stream APIでツイートを取得するプログラムを書き書き。

tweetCheck.py

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import tweepy
#Twitter API 実行に必要な変数は、自分で用意する。
CK = ''   # Consumer Key
CS = ''   # Consumer Secret
AT = ''   # Access Token
AS = ''   # Accesss Token Secert

class Listener(tweepy.StreamListener):
    def on_status(self, status):
        print(status.text.encode('shift_jis', 'ignore'))
        return True

    def on_error(self, status_code):
        print('エラー発生: ' + str(status_code))
        return True

# ここからメイン処理
auth = tweepy.OAuthHandler(CK, CS)
auth.set_access_token(AT, AS)     #アクセストークンの取得

listener = Listener()                       # Listenerクラスのインスタンス
stream = tweepy.Stream(auth, listener)      # ここから受信開始。

#どれか選択の上コメントアウト外す。
#stream.filter(track=['#xxxxxx'])  # 指定の検索ワードでフィルタ
stream.sample()                    # Twitter全ツイートから1%ピックアップ
#stream.userstream()               # ユーザ自身のTL

　……え、31行(空行、コメント含む)？　こんなんでなんとかなるの？？
と思いつつ実行。

　読めない(UTF-8なので)ですが受信は出来てます。終了はCtrl + Cで強制終了。

注意事項

さくっと動いた感じですが、実際には2箇所ほど詰まりました。

1行だけ表示されるがすぐに強制終了した
　　→Visual Studioでまず作られるpyファイルの文字コードが「Shift-JIS」だった。
　　　[メニュー]→[ファイル]→[保存ファイルの詳細設定]から、UTF-8を選択して保存。
上を直した後実行したら、一瞬表示がされるが強制終了する。タイミングはランダム。
　　→「def on_status(self, status):」の下のprintが、当初「print(status.text)」だったが、
　　　コマンドプロンプトに表示出来ない文字を表示しようとして死ぬのだとか。
　　　エンコードを変換するようにしたら、化けまくってはいるが表示はされるようになった。

　前者は最初の1回直せばオッケー。後者は、常に動かしてるなら表示する必要無いからこれもオッケー。
Python初めて数日でこの程度まではなんとかなる、というのならば意外と10月末に間に合うかも知れません。

　次回はこのソースに肉付けしていきます。
(続く)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up