前回までのおさらい
前回はTwitterから安倍首相に言及されたTweetをインポートし、RMeCabでトークナイズして、ストップワード等を取り除き、頻出する単語が何かを確認するところまで見てきました。Part 2では、Tweetのテキストから、Tweetをクラスタリングして類似性を分析してみます。
Tweetのクラスタリングまでの道のり
安倍首相に関するTweetを、類似するクラスタにクラスタリングするには
- 前回単語分けされた安倍首相関連のTweetsのテキストを使う
- Nグラムのアルゴリズムを使って1単語と2単語の組み合わせのテキストを作成
- TF-IDFのアルゴリズムを使ってそれぞれのTweetを数値化する
- SVDのアルゴリズムを使って次元削減する
- K-Meansクラスタリングのアルゴリズムを使ってTweetsを似た者同士のグループに分ける
という手順を踏んでいきます。では早速順場に見ていきましょう。
前回単語分けされた安倍首相関連のTweetsのテキストを使う
前回Part1で説明した、1)単語分けして、2)ストップワードを取り除き、3)動詞と名詞だけに絞り、4)文字数が1文字以上にした安倍首相に関するTweetデータをここでは使います。
Nグラムのアルゴリズムを使って1単語と2単語の組み合わせのテキストを作成
Part1でトークナイズしたトークン(形態素)からNグラムを生成します。Nグラムとはテキスト内の連続するn個の表記単位(gram)でNが 1ならユニグラム(uni-gram)、2ならバイグラム(bi-gram)、3ならトリグラムまたはトライグラム(tri-gram)と呼ばれます。
緑のプラスボタンを押して、テキストマイニング メニューよりNグラムトークンを作成 を選びます。
トークナイズされたテキストがある列に**.token** 列を指定します。また、ここでは、1 tweet = 1文書 = 1センテンスとして扱うので、文書ID列とセンテンスID列両方にstatus_id 列を指定します。
すると、以下のようなNグラムが生成されます。バイグラムの時は自衛隊_日報のように2つの単語が**_** で接続されているのが分かります。
これをバーチャートにすると、 支持、拉致 といったN グラム(1つなのでユニグラム)が上位に来ているのが分かります。
TF-IDFのアルゴリズムを使ってそれぞれのTweetを数値化する
TF-IDFは文書に含まれる単語がどれだけ重要かを示す手法の一つで、TF (= Term Frequency: 単語の出現頻度)とIDF (Inverse Document Frequency: 逆文書類度)の2つを使って計算します。TFはここではあるTweetに何回このNグラムが出現したのかを、IDFは沢山あるTweet全体の中で、このNグラムが何回現れたかの逆数を示します。これは、その単語が他のTweetにはなかなか出現しない「レアな単語」なら高い値を、「色々なTweetによく出現する単語」なら低い値を示すものです。つまりレアな単語は、そのTweetの特徴を判別するのに有用ということになります。
緑のプラスボタンを押して、テキストマイニング -> TF-IDFを計算 を選びます。
文書ID列にstatus_id列を、トークナイズされたテキストがある列にtoken列を選びます。
実行ボタンを押すと、次のようにTF-IDFが計算されます。
SVDのアルゴリズムを使って次元削減する
実はテキスト分析のときにはこれら一つ一つのユニークな単語のことを次元と言います。ここで、縦(行)に文書のID、この場合だとそれぞれのTweetのID、そして横(列)にそれぞれの単語が割り当てられたマトリックスのようなものを想像してみて下さい。そうすると、それぞれのTweetの特徴が、それぞれの列にある単語に対する数値(スコア)によって決まるわけです。
しかし、ここで気をつけなくてはいけないのは、その列の数が24,258個(次元)あるということです。しかしそもそもそれぞれのTweetは140単語以下なので、ほとんどの列(次元)は0もしくはNAとなっているはずです。つまり以下の表のようなスッカスカのマトリックスであるということです。
こうしたデータをそのまま使ってクラスタリング等のアルゴリズムを適用すると結果に歪みが生じてしまいます。こういったことをCurse of High Dimensionality(次元の呪い) と言ったりします
そこで、本質的な特徴を残しつつ、重要でない情報量を削減することができる次元削減という手法を使うことになるのですが、ここでは、SVD (Singular Value Decomposition: 特異値分解)という次元削減のアルゴリズムを使ってみます。
ところで、このSVDですが、Exploratoryの現行のバージョンのUIで用意されているのは、各次元が列になっているワイド型のデータに対応したものです。今回、次元はtfidfという列に入ったロング型のデータとなっているのでUIでは対応できません。
そこで、UIではサポートされていないdo_svd.kvというロング型のデータに対応したSVDの関数を使います。実行する方法として、関数を直接指定できるカスタム・コマンドを使います。(ちなみにこのdo_svd.kvは次のバージョンからUIでサポートされるようになります。)
緑のプラスボタンを押して、カスタムコマンドを選びます。
今回はTweet毎に単語をtfidfの値に基づいて次元削減をしたいので、一番最初の引数(対象列)にTweetのIDであるstatus_idを、2番目の引数(キー列)にNグラムであるtokenを、3番目の引数(値列)にtfidfを指定します。また、この例では4次元まで次元数を減らしてみるので、n_componentsには4を指定します。
do_svd.kv(status_id, token, tfidf, n_component=4)
実行すると、以下のようにTweet毎に4つまで次元数が削減されました。
K-Meansクラスタリングのアルゴリズムを使ってTweetsを似た者同士のグループに分ける
さて、無事次元数も4つまで削減されたので、この4つの次元を用いて、Tweetをクラスタリングします。ここではK-Meansというアルゴリズムを使います。
データをロング型からワイド型へ変換
今、SVDを実行した結果はロング型のデータフレームとなっています。つまり、
new.dimensionという列に各次元(1,2,3,4)が、value列にそれぞれの値が入る 縦長なデータフレームとなっています。
K-Meansクラスタリングでは、データがワイド型、つまり、1つの次元(変数)が1列であることを前提としているので、ワイド型に変換しましょう。new.dimensionとvalueの列をコマンドキーとクリック( Windowsの場合はコントロールキーとクリック)で両方選択し、列のメニューから**Spread (ロング型からワイド型へ)**を選びます。
開いたダイアログでOKボタンを押します。
すると、以下のように、一つの次元(変数)が一つの列で、1つのTweetが1つの行であるワイド型のデータになります。
K-Meansでクラスタに分ける
次に、1から4までの次元の列をコマンドキー(Windowsはコントロールキー)を押しながらクリックし、4つとも選択します。列メニューより、分析 -> K平均法でクラスタリング -> 選択された範囲を選びます。
ダイアログの中でクラスタの数をここでは6に設定し、実行ボタンを押します。
すると、データフレームにclusterという列が追加され、各Tweetにそれぞれ1から6の何れかのクラスの値が割り当てられました。
ちなみに、今回はクラスタ数は6と指定しましたが、これは最適なk-meansのkを見つけるというブログの方法を使用して求めました。
クラスタリングの結果を可視化する
では、計算されたクラスタの情報を使ってTweetを可視化してみましょう。
ところで、今Tweetのテキスト情報は、下の図を見ると分かるように、クラスタを計算したデータフレームに残っていません、
そこで、可視化のためにクラスタの情報と元のTweet情報と結合します。
元のTweet情報を持つブランチを作成
SVDとK-Meansを実行した後には、上の表を見てわかる通り、text列はありません。しかし、同じデータフレームの先頭のステップ(画面右側のステップの先頭)に行くと、元々のTweetがtext列に残っているのが下の図のように分かります。
このTweetのテキスト情報をスナップショットとして保存しておくために、tweet_abeというデータフレームの一番先頭のソースのステップ(画面右側のステップの先頭)のメニューをクリックし、ブランチの作成を選びます。
名前を入れて作成ボタンをクリックします。
すると、画面左手のツリーのデータフレームのセクションにtweet_abe_sourceというブランチがtweet_abeというデータフレームの下に出来たのが確認できます。
最終的に必要なのは結合キーに使うstatus_idと、Tweet情報のtext列だけなので、この2つの列だけを残します。status_id列をtext列をコマンドキー(Windowsではコントロールキー)とクリックで両方選択し、残す -> 選択された列を選びます。
status_idと、Tweet情報のtext列だけになりました。
さて、SVD及びクラスタを計算したデータフレーム(tweet_abe)に戻り、先ほどとったスナップショット(tweet_abe_sourceというブランチ)のtext列と結合しましょう。緑のプラスボタンを押して、結合をメニューから選びます。
結合の相手先に、今作成したブランチ(tweet_abe_source)を指定し、マッチさせる列にstatus_idをそれぞれ指定し、実行ボタンをクリックします。
これでクラスタとSVDの計算結果(X1からX4の列)とTweetのテキストが以下のように一つのデータフレームに結合されました。
散布図でTweetのクラスタを可視化
次にVizビューに行き、散布図を作成します。X軸にX1列を、Y軸にX2列を、Z軸にX3列を割り当てます。(注意:Z軸を使った3次元の散布図は現在Macのみのサポートとなります。Windows版ではご利用いただけません
) 次に色で分割にcluster列、ラベルにtext列をそれぞれ割り当てます。
散布図に6つのクラスタが可視化されました。それぞれの点をホバーすると、次のようにTweetのテキストの内容を確認できます。例えば緑のクラスタのある一点をマウスでホバーすると、次のようなTweetであることが分かります。
クラスタ毎の特徴
では次に、各クラスタ毎に頻出する単語をみて、クラスタ毎の特徴を確認してみましょう。そのためには単語とクラスタの情報を一つのデータフレームに集める必要があります。
SVDとK-Meansを実行した後には、単語を保持するtoken列はありません。しかし、同じデータフレームの単語を導出したのステップ(画面右側のCreate N-Gramのステップ)に行くと、元々の単語がtoken列に残っているのが下の図のように分かります。
この単語情報をスナップショットとして保存しておくために、tweet_abeというデータフレームのCreate N-gramのステップのメニューをクリックし、ブランチの作成を選びます。
tweet_abe_ngramという名前のブランチを作成します。
クラスタ情報を持つtweet_abeのデータフレームの下に、単語情報を持つtweet_abe_ngramができました。
最終的に必要なのは結合キーに使うstatus_idと、単語情報のtoken列だけなので、先ほどと同じようにこの2つの列だけを残します。status_id列をtoken列をコマンドキー(Windowsではコントロールキー)とクリックで両方選択し、残す -> 選択された列を選びます。
status_idと、単語情報のtoken列だけになりました。
さて、SVD及びクラスタを計算したデータフレーム(tweet_abe)に戻り、先ほどとったスナップショット(tweet_abe_ngramというブランチ)のtoken列をtweet_abeデータフレームに結合しましょう。緑のプラスボタンを押して、結合をメニューから選びます。
結合の相手先に、今作成したブランチ(tweet_abe_ngram)を指定し、マッチさせる列にstatus_idをそれぞれ指定し、実行ボタンをクリックします。
これでクラスタとSVDの計算結果(X1からX4の列)と単語が以下のように一つのデータフレームに結合されました。
クラスタ毎のTop 5の頻出単語を計算しましょう。
clusterとtokenでグループ化して、
各件数を集計して、単語の出現頻度を求めます。
すると集計結果が以下のように分かります。
各クラスタで頻度が上位の5つだけに残します。
すると、以下のような結果になります。
バーチャートで、繰り返しにcluster列を割り当てて、先ほど上位5までに絞った各単語の頻度を見ると、以下のようになります。
上のバーチャートを見てみると、どうやらそれぞれのクラスタを特徴付ける単語は以下のようです。
- クラスタ 1 (青色) - 米国、首脳
- クラスタ 2 (オレンジ) - 支持、調査
- クラスタ 3 (緑) - 拉致、横田
- クラスタ 4 (赤) - 支持、拉致
- クラスタ 5 (紫) - 柳瀬、国会
- クラスタ 6 (茶) - 愚か、教授
では各クラスタに実際にどんなTweetがあるのか例を見てみましょう。
クラスタ 1(青色) - 米国、首脳
1のクラスタに関しては同率のものが多かったのですが、ここでは米国と首脳という単語を取り上げて見ます。
このクラスタのTweet例です。
[朝日]対話表明の米に「周回遅れ」日本 首脳会談、蜜月に誤算 https://t.co/muy64UTEwT 安倍晋三首相が17、18両日に米国でトランプ大統領と会談する。米国の米朝対話表明の真意を確かめる狙いだが、急きょの訪米には、首脳間の蜜月への誤算がにじむ。北朝鮮問題で日米の「完全一致」を演出した… https://t.co/eqht6qK3Y5
クラスタ 2 (オレンジ) - 支持、調査
日本テレビ世論調査 内閣支持率26.7%だって。安倍首相2日後の訪米前にあえてこの数字なのかね。基本、新聞社のやる世論調査の内閣支持率って各社の思惑とかで創出するものだろうし、そこで最も自民党内の意向示して影響あるっぽい読売がこのタイミングでこの数字出すって与党内荒れてきた証拠ね
クラスタ 3 (緑)- 拉致、横田
滋さんのご回復をお祈り申し上げます。めぐみさん他拉致被害者全員の帰国が果たされる事を現政権には成し遂げていただきたい。\n#拉致被害者全員奪還\n#特定失踪者全員奪還\n【北朝鮮拉致】安倍晋三首相が横田めぐみさんの父、滋さん見舞う https://t.co/pKXzQHXAPq @Sankei_newsから
クラスタ 4 (赤) - 支持、拉致
大河とNスペの間のニュースで「安倍首相が訪米を前に横田滋さんを訪問」ってのがあったんだけど、\n「拉致問題の解決を(云々)…話した"か"」ってなってて、映像も車に乗り込むとこ以外は過去の映像。\nこれ、囲み取材がなかったってことよね?支持率上げますパフォーマンスですら、囲み取材が怖いと。
クラスタ 5 (紫) - 柳瀬、国会
シリアの空爆やゴールデンウイークなどで世間が森友、加計疑惑を忘れるのを待つ作戦です」「首相案件」は他の愛媛県メモにも 訪米で柳瀬氏国会招致の引き伸ばし図る安倍官邸 https://t.co/0llshqchHR
クラスタ 6 (茶) - 愚か、教授
「愚かなアベ」しか言ってない。\nこれヘイトだよね。\n\n【動画あり】慶應大・金子勝教授「安倍は歴代の首相の中で最も愚かな首相だ!バカほど恐ろしいものはない」 https://t.co/FZzvn4es8o
なお、緑のクラスタ3と赤のクラスタ4は、どちらも横田めぐみさんや北朝鮮拉致に関する内容なので、先ほどの散布図で確認すると似た方向に向かっているのが分かります。
まとめ
今日は、いくつものアルゴリズムを使って最終的に安倍首相関連のTweetを6つのタイプに分け、それぞれの特徴をつかんでみました。もう一度簡単に振り返ると、以下のようなステップをたどりました。
- 前回単語分けされた安倍首相関連のTweetsのテキストを使う
- Nグラムのアルゴリズムを使って1単語と2単語の組み合わせのテキストを作成
- TF-IDFのアルゴリズムを使ってそれぞれのTweetを数値化する
- SVDのアルゴリズムを使って次元削減する
- K-Meansクラスタリングのアルゴリズムを使ってTweetsを似た者同士のグループに分ける
こうすることで、見かけ上は数値化されていないテキストのようなものでも類似度を計算することができ、一見ばらばらでたくさんあるように見えるTweetのようなテキストデータの全体像が効率的に浮かび上がってくるわけです。
まだExploratory Desktopをお持ちでない場合は、こちらから30日間無料でお試しいただけます。
データサイエンスを本格的に学んでみたいという方へ
6月の中旬に、Exploratory社がシリコンバレーで行っているトレーニングプログラムを日本向けにした、データサイエンス・ブートキャンプが東京で行われます。データサイエンスの手法を基礎から体系的に、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に、参加を検討してみてください。