Edited at

Pythonでツイート収集

More than 3 years have passed since last update.

pythonでツイートを収集します。

主に、機械学習する際に〇〇botなどから情報を得たい時に使用します。(私の場合は)

〇〇botなどは非常に内容が偏っており、

例えばツンデレbotなどではツンデレに関するツイートが多いと言えます。

これはこのアカウントをツンデレのセリフ集であり、全てがツンデレセリフであると認識でき、わかりやすく言えば、「スパムであるかそうでないか」つまりツンデレかツンデレでないかという分類のツンデレであるのモデルに使用できます。

前置きが長くなりましたが、ツイート取得するコードがほんの数行です。

LibraryはTweepyを使用していますのでインストールしていない場合は


コマンド

pip install tweepy

or
sudo easy_install tweepy

でインストールできます。

実際に動かすにはCK, CS, AK, ATを取得する必要があります。

下記URLから新しいAppを作成してTokenを取得してください

https://apps.twitter.com/

get_timeline()にはそれぞれ

取得したいアカウントの(id),

取得するツイートの数(cout)

を当てはめます。


get_timeline

#coding: utf-8

import tweepy

CK = ""
CS = ""
AK = ""
AT = ""

def get_twitter_api(CK, CS, AK, AT):
auth = tweepy.OAuthHandler(CK, CS)
auth.set_access_token(AK, AT)
api = tweepy.API(auth)
return api

def get_timeline(id, count=100):
API = get_twitter_api(CK, CS, AK, AT)
i = API.user_timeline(id=id, count=count)
with open("", "w") as f:
for k in i:
encode = k.text+'\n'
f.write(encode.encode('utf-8'))

if __name__ == '__main__':
get_timeline(id="", count=100)