(備忘用なので、時間あるときに分かりやすい記事にします。)
下記リンクを参照して、word_cloudしてみました。
https://qiita.com/Sota_N/items/dfd435c4ebee29e100f7
反省点は
・取得するツイート数を500に設定し、リツイートを除外したのでサンプルが少ない。
・する、てるなどを除外するべき。
・そもそも私のツイートは具体的な名詞が少ないので、分析しがいがない
反省を生かし、防衛大臣の河野太郎さんのツイートを分析したのが下記。
最近コロナウイルスの感染者等をツイートされているので、名が上位であることは納得。
河野さんくらい上位にヒットするワードが多いと傾向がつかめ、分析のしがいがあるといえる。
ちなみに私、河野さんの分析双方ともword_cloudするときに下記でfilterをかけている。
frq_Zimin_exp_taro <- frq_Zimin_taro %>%
filter(Info1 %in% c("名詞","形容詞","動詞")) %>%
filter(Freq > 10) %>%
filter(!(Info2 %in% c("数", "サ変接続", "一般"))) %>%
filter(!(Term %in% c("する", "いる", "ある")))
最終的には
"#(ハッシュタグ)"や、特定の言葉を含むツイートを取得したいからまだ道のりはながい・・・
今日はここまで!