More than 3 years have passed since last update.

【python】TwitterAPIを用いてオーディンション番組の投票数を取得する

Posted at 2021-05-31

動機

自分が最近見ているオーディション番組（PRODUCE 101 JAPAN SEASON2）では一般投票により最終的なデビューメンバーが決まります。投票はオーディション番組のWebサイトで行います。また誰に投票したかを投票後にTwitterに投稿できる機能があります。
誰が人気かを把握するためにTwitterAPIを用いて投票数を集計したいと思います。

本記事と同様の趣旨でyoutubeのデータを取得する記事も投稿致しましたので、もし良かったら見てください。
【python】YoutubeAPIを用いてオーディンション番組動画の情報を取得する

開発環境

python3.9.0
tweepy3.10
Mac OS Mojava 10.14.6

TwitterAPIを使用する

本記事ではAPIの使用方法の説明は省略します。
自分は以下のページを参考にしました。

https://zenn.dev/kumamoto/scraps/fac96d402a589ed86283

APIの仕様等はtweepy Documentationを参照致しました。

https://docs.tweepy.org/en/v3.10.0/index.html

import tweepy

    api_key=os.environ.get('API_KEY')
    api_secret=os.environ.get('API_SECRET')
    acc_token=os.environ.get('ACCESS_TOKEN')
    acc_secret=os.environ.get('ACCESS_TOKEN_SECRET')

    #twitter objectの生成
    auth = tweepy.OAuthHandler(api_key, api_secret)
    auth.set_access_token(acc_token, acc_secret)
    api = tweepy.API(auth,wait_on_rate_limit=True, 
                     wait_on_rate_limit_notify=True, timeout=1000)

・wait_on_rate_limit
　　APIの利用制限の引っかかったときに自動で待機してくれる
・wait_on_rate_limit_notify
利用制限に引っかかった時にどれほど待機するのか教えてくれる
・timeout
ツイッターから応答をどれだけ待つか

今回は、大量のツイートを取得するため上記のパラメータを設定しています。
ただ、自分の場合には利用制限に引っかからないようにコードを実装しました。
ちなみに検索の利用は15分間で180回を超えると制限がかかります。

ツイートを検索する

今回対象とするツイート例です。webサイトから以下のフォーマットで投稿されます。

国民プロデューサーが決めるボーイズグループオーディション。国民投票＆練習生プロフィール
https://t.co/6B7Lg4kKTz #PRODUCE101JAPAN2 #LETMEFLY
— 🍼 (@amattareeeee) May 27, 2021

よって、検索ワードは「国民投票＆練習生プロフィール exclude:retweets」
RTは除きます。

誰に投票したかはツイート内のURLから判別します。以下がURL例です。

https://gyao.yahoo.co.jp/specials/produce101-vote?id=C004%2CC036&source=external.twitter.vote

URLのid=直後にあるC004とC036が参加者に一意に割り当てられたIDです。
下記の流れで集計します。
1.ツイート検索
2.ツイート取得、URL解析
3.投票数カウント

以下が実装です。

# 引用RTの排除、現在の仕様だとRTは元々検索から除外
word = ["国民投票&練習生プロフィール exclude:retweets"]
# 投票数
num_of_all_votes = 0
try:
        for tweets in tweepy.Cursor(api.search, q=word,
                               result_type="recent", lang='ja',
                               tweet_mode='extended',
                               include_entities=True).pages():
            for tweet in tweets:
                try:
                    str_url=tweet.entities["urls"][0]["expanded_url"]
                    #URLから参加者のID抽出
                    for m in re.finditer('C[\d]{3}', str_url):
                        if (bool(m) == False):
                            break
                        #辞書型にデータを格納していきます
                        vote[m.group()] += 1
                        num_of_all_votes += 1
                except Exception as e:
                    print(e)
                    continue
            #15分間180回の制限を超えないように調整
            time.sleep(5)
    except Exception as e:
        print(e)
        print("取得ツイート数："+str(num_of_all_votes))
        file.close()
    print("取得ツイート数："+str(num_of_all_votes))

for tweets in tweepy.Cursor(api.search, q=word,

tweepyのCursorを用いてツイートを取得します。
Cursorではitems()を用いて１ツイートずつ取得する方法と
pages()を用いて1ページ(15ツイート)ずつ取得する方法の２種類がありますが
利用制限を考慮して1回のリクエストで1ページを取得しています。
取得したツイートの情報はStatusオブジェクトという形でまとまっています。
Statusオブジェクトに何が格納されているかを以下のブログを参照しました。

https://www.virtual-surfer.com/entry/2018/04/15/190000

>result_type="recent"

result_typeは最新の投稿から取得するためにrecentを指定しています。他にも人気順のpopular,時系列、人気のどちらも考慮したmixedがあります。

tweet_mode='extended',include_entities=True

URLの取得が必須なので省略されたURL、ツイートを取得するパラメータを設定します。

time.sleep(5)

利用制限に引っかからないように１ページ取得毎に５秒間待機します。
tweepy.API()でwait_on_rate_limitを指定すると自動で待機してくれるのですが、
その方法で実行したら何度かタイムアウトしてしまったのでアクセス頻度をコントロールするようにしました。

結果

実行した結果、以下のように得票数を取得できました。
今回は１週間分のツイートを検索しました、この結果は１週間分(5/19~5/26)のものです。
１週間以上前のツイートは公式によるとdeveloper accountでプレミア契約しないといけない、課金しないといけないらしいです。（ちょっと調べた感じ課金しなくても１週間前以上のツイートを検索する方法があるらしい）

村松健太 434
木村柾哉 409
田島将吾 384
寺尾香信 319
仲村冬馬 307
藤牧京介 293
大久保波留 284
西島蓮汰 273
飯沼アントニー 263
許豊凡 251
尾崎匠海 241
後藤威尊 238
佐野雄大 231
篠原瑞希 230
小林大悟 221
西洸人 220
髙塚大夢 202
松田迅 197
四谷真佑 195
太田駿静 195
中野海帆 193
小堀柊 193
井筒裕太 191
内田正紀 176
笹岡秀旭 163
池﨑理人 127
小池俊司 116
福田翔也 115
栗田航兵 109
髙橋航大 105
森井洸陽 87
松本旭平 80
福田歩汰 77
ヴァサイェガ光 76
平本健 73
阪本航紀 62
飯吉流生 59
テコエ勇聖 55
大和田歩夢 45
上田将人 11

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up