1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

[Python] [R] 注目したニュースの話題性をグーグルトレンドで確認する

Last updated at Posted at 2019-09-16

 グーグルニュースやYahooニュースなどで気になったニュース内容への関心の推移を確認したい場合、グーグルトレンドを使います。キーワードが複合語やフレーズの場合、いくつかの組み合わせ方で検討してみる必要があります。
今年2019年7月のグーグルニュースから**「天気の子レシピ」**に関する7月23日リリースのニュースに注目しました。
新海誠監督の話題の最新作「天気の子」の劇中レシピを国内No.1のレシピ動画サービス「クラシル」が考案・提供

「天気の子レシピ」に対する関心の推移、話題性を確認するために、2種の単語の組み合わせでグーグルトレンドのデータを確認しました。プログラムはPythonとRを併記してあります。両言語ともにグーグルトレンドデータを取得するパッケージが用意されています。
検討した検索ワードの組み合わせは、「天気の子レシピ」と、
"天気の子"と"子"の間に半角を入れた「天気の子 レシピ」です。
データ取得期間は2018年1月1日~2019年8月31日に設定しました。

#Pythonでグーグルトレンドの時系列データを取得する
##環境
Windows10
Python3.6.5

##グーグルトレンドのデータ取得のためにpytrendsをコマンドプロンプトでインストール

$ pip install pytrends

##Pythonのスクリプト

GoogleTrend
from pytrends.request import TrendReq  #グーグルトレンドの情報取得
import pandas as pd  #データフレームで扱う

pytrends = TrendReq(hl='ja-JP', tz=360)
kw_list =["天気の子レシピ", "天気の子 レシピ"]
pytrends.build_payload(kw_list, cat=0, timeframe='2018-01-01 2019-08-31', geo='JP', gprop='')
df = pytrends.interest_over_time() #時系列データを取り出す
df.to_csv("グーグルトレンド_天気の子レシピ_Python.csv", encoding='cp932')

#Rでグーグルトレンドの時系列データを取得する
Windowsでは検索ワードを日本語にすると文字コードに由来するエラーが発生して修正できなかったのでので、Macで実行しました。

##環境
Mac
R3.5.0

##グーグルトレンドデータ取得のためにパッケージgtrendsRをインストール

gtrendsR
install.packages("gtrendsR")

##Rでのスクリプト

GoogleTrend
library(gtrendsR)
kw_list <- c("天気の子レシピ", "天気の子 レシピ")
d <- gtrends(keyword = kw_list, geo = "JP", time = "2018-01-01 2019-08-31")
write.csv(d$interest_over_time, "グーグルトレンド_天気の子レシピ.csv")

#グラフで表示
 保存したcsvファイルからエクセルで作成したグラフを添付します。
注目したニュースのリリース日がグーグルトレンドのピークとほぼ一致しています。
グーグルトレンド_天気の子レシピ.png

#まとめ
 グーグルニュースで注目した「天気の子レシピ」の話題性をグーグルトレンドで確認することができました。グーグルトレンドの検索ワードとしては"天気の子レシピ"ではなく"天気の子"と"レシピ"の間に半角の区切りを入れるのが適正でした。このように、複合後やフレーズに関するトレンドを見るためには、単語の組み合わせ方をいくつか検討してみる必要があります。
Pythonでは、グーグルトレンドのデータ取得には問題はありませんでしたが、matplotlibでプロットを作成する場合に、"天気の子"のような日本語に対応するフォントが用意されておらず、文字化けすることがわかりました。いくつかの記事を参考にフォントを入れてみましたが、未だに修正できなかったので、グラフは保存したcsvファイルからエクセルで作成して添付しました。
Rでは、Windowsではグーグルトレンドのデータ取得の際にエラーになりました。やはり"天気の子"のような日本語の文字コードに対応できていないようです。
Macでは実行できました。
日本語への対応や文字コードでは結構悩まされます。

スクリプトは下記記事に利用しました。
データサイエンスで食のヒットの種を見つけだそう! (1) - ローソンのバスチー ヒットの秘密 -

食のヒットの種を見つけだそう! (2) - 2019年6月~8月は「完全食」と「天気の子レシピ」-

食のヒットの種を見つけだそう! (3) - 2019年9月はタピオカティーに続く台湾発の食 、特に「チーズティー」

食のヒットの種を見つけだそう! - 2019年10月はスイートポテトパイ

2020年期待の食のヒットの種 - チーズボール -

参考記事
【Python 3.6】matplotlibを日本語化する
【R】gtrendsRパッケージのつまづきポイント

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?