背景
何も分からないが頑張って参院選の結果をTwitterから予測しようとする #0. 準備の準備
の続きになります。
センシティブな内容かもしれませんが、データ分析初学者の戯言だと思って温かく見守っていただければ幸いです。
分析ステップの確認
前回の記事にて、完璧な分析に向けて、以下のように分析スッテプを整理させていただきました。
1. Twitter APIを活用して、選挙当日までの選挙に関するツイートを取得(今回半分)
2. 取得したツイートをMeCabで形態素解析して、各政党ごとにWordCloudでの関連単語図式化や単語感情極性対応表によるポジネガ分析を実施
3. (今回は)実際の選挙結果と予測結果を照らし合わせて人力ニューラルネットで精度改善
今回は、#1の半分くらいまで本記事でトライしていきます。
Twitter APIの活用
APIとはなんぞや系や各種設定については友達のまさひろいその君のこれを参考にしました。
(ほんとはこれ以外も参考にしました、すみません。末尾参考記事参照。)
素人が今更Twitter APIで遊ぶ 〜その1〜
(でも少し古いかも。自分も前はConsumer keyやCustomer secret keyと書いていたが、
API keyやAPI secret keyに名前が変わっていた。)
import tweepy
#認証に必要なキー
API_KEY = 'xxxxxxxxxxxx'
API_SECRET = 'xxxxxxxxxxxx'
ACCESS_TOKEN = 'xxxxxxxxxxxx'
ACCESS_SECRET = 'xxxxxxxxxxxx'
#APIの認証
auth = tweepy.OAuthHandler(API_KEY, API_SECRET)
auth.set_access_token(ACCESS_TOKEN, ACCESS_SECRET)
#APIの活用
api = tweepy.API(auth, wait_on_rate_limit = True)
とりあえずこれでAPIの活用準備はOK。
tweepy.APIのリファレンスはこちら👉 APIリファレンス
APIを活用して特定の単語が含まれたツイートを取得
先に定義した変数apiで色々できます。
api.searchで特定の文字列を含むツイートを検索可能。
今回は政党名や政治家名をsearch_keyに入力することを想定しています。
search_key = "xxxxxxx" #調べたい言葉
item_num = "xxxxxxx" #取得したいツイート数
#ツイートを取得してtweet_dataにリストとして保存する関数を定義
def get_tweets(search_key, item_num):
tweets = tweepy.Cursor(api.search ,q = search_key, lang='ja').items(item_num)
tweet_data=[]
for tweet in tweets:
tweet_data.append([tweet.text])
return tweet_data
#tweet_dataにリストとして格納
tweet_data = get_tweets(search_key, item_num)
各政党や政治家に関するツイートをtweet_dataに格納していくイメージ。
今日はここまで!
次は特定の日付までのツイートの取得やMeCabでの形態素解析の方法etc...