More than 5 years have passed since last update.

テキストデータセットをいい感じに俯瞰できるクラスタリングをしてみよう

Last updated at 2019-11-01Posted at 2019-10-31

この記事で紹介すること

いくつかのクラスタリング手法を併用しながらクラスタリングを進めてくれるパッケージの紹介
↑こういうクラスタリングのユースケース
↑こういうクラスタリングをやってみた実例

てか，なんでクラスタリング必要？

データに関わる研究やお仕事に関わっていると，新しいデータに出くわす場面はたくさんあります．

新しいデータというのは，そもそも中身がよくわからないわけですから，研究方針・分析方針などを考える前にまずはデータを理解しなくちゃいけません．

こういうときにクラスタリングは必要になります．¹

例えばどんなクラスタリングのユースケースがあるの？

私は調査業で自然言語処理の業務をやってきました．調査業でのNLPというと，テキストマイニングとも言えるかもしれません．

調査業での基本は__データ集計__です．集計したデータと業界知識に基づいて，調査レポートを作成する・・・というのが，基本です．

で，テキストデータももちろん集計しなくちゃいけません．集計単位には「調査目的に適切なラベル」を使って集計することが多いです．

「調査目的に適切なラベル」がはじめからわかっているケースは，問題はありません．

しかし，新しいテキストデータで「そもそもどんなラベルにしたらいいのか？わからへんがな」というケースはまずラベルを考えなくてはいけません．

そんなケースではクラスタリングでデータをさらさら〜っと俯瞰できると，ラベルを考えるのが楽になります．

クラスタリング以外の方法もあるんじゃないの？

もちろん，クラスタリング以外のアプローチもできます．

例えば次のようなアプローチもありえます．

データをサンプリングしてラベリングしてみる．信頼区間の数だけサンプリングできればOKっていうケースもあります．
いろんなテキストマイニングツールを使う．Khcoderは老舗の良いソフトウェアです．私も時々つかいます．

それぞれに良し悪しがあるので，ユースケースに合った方法が一番いいと思います．

が，私はそういうの考える面倒くさくなったときは「とりあえずクラスタリングで観察」という雑な考えです．

クラスタリング？Kmeansとかでいいんじゃないの？

ベクトル化したテキスト+Kmeansの組み合わせは古くから使われてきた王道だと思います．

ただ，この組み合わせベストかというと，そういうわけでもありません．

「その他」みたいなでっかいクラスタが形成されちゃう．でも，クラスタの中身を見てみると，まだ分割できそうな気がする
最初からたくさんのクラスタ数でクラスタリングしたら，解釈が難しくなった．１回目はざくっと分けて，２回目はもう少し細かく分割できたらいいのに
「ここに注目してクラスタリングしてほしい」っていう特徴量がいくつかあって， 1回目のクラスタリングと２回目のクラスタリングで，別々の特徴量を見てくれたらいいのに
クラスタリング後の解釈がめんどうくさい．．．いい感じに可視化してくれたらいいのに

「こうなるといいのにな〜」という部分を黒字で強調しました．

そんなクラスタリングを自分でプログラム書いていると割と手間です．正直いって面倒くさい．

で，そんなクラスタリングをやってくれるパッケージを作りました．

flexible_clustering_treeの紹介

このパッケージは例えば，次のことをしてくれます．

1回目はざくっと分けて（クラスタ数=3）で，２回目のクラスタリングではもう少し細かく(クラスタ数=8)分ける
1回目はKmeansでざくっと決め打ちで分けて，２回目のクラスタリングではDBSCANで分布を考慮しながら分ける
テキストデータセットがあって，１回目はタイトルの特徴量で分けて欲しい．２回目のクラスタリングでは，テキストの本文で分けて欲しい．
クラスタリング後にD3.jsでツリー構造を可視化するメソッド付き

例えば，下の画像は次の条件でクラスタリングしたときの画像です．

データセットは20-newsデータセット
１回目のクラスタリングはニューステキストのタイトルだけを特徴量(word embeddingの平均)にした．２回目のクラスタリングではニュース本文のBag-of-word特徴量を使った．
１回目のクラスタリングではHDBSCANを使った．２回目のクラスタリングではKmeansを使った．
クラスタリング後にhtmlに出力して可視化．

ボトムアップの階層クラスタリングでいいんじゃないの？

ボトムアップの階層クラスタリングでも悪いことはないです．むしろ，ユースケースでは階層的クラスタリングの方がいいときもあります．

ただ，ボトムアップ式の階層クラスタリングはデータ数が巨大になると，計算も実行も大変になるという特徴があります．

このパッケージの発想はまだにボトムアップの階層クラスタリングの逆バージョンと言ってもいいです．

ライブドアニュースコーパスでやってみた

株式会社ロンウィットさんが公開しているライブドアニュースコーパスというデータセットがあります．

ライブドアニュースコーパスはニュースカテゴリごとに分かれていますが，ここではカテゴリラベルはなかったことにして考えてみましょう．

ただ「やってみた」だけでは面白くないので，何か分析ストーリーがあると面白いと思いました．そこで，ビジネスユースケースに近い例として，次の例を考えてみました．

あなたはWebサービスを運営してる企業のデータ分析的な何かをする人です．
ある日，こんなお題がどこからか降ってきました．
- 運営してるニュースサービスの記事が溜まってきた．ユーザーが検索しやすくできるように，ニュース記事にタグをつけようと思う．
- でも，やたらめったらタグをつけてもユーザーを混乱させるだけになるかもしれない．
- ニュース記事の内容を観察して，いいタグを考えてね．よろしく☆
あなたは実は他の業務も持っていて，あんましこの降ってきたお題に時間を割いてる余裕がないです．

~~あ．．．このユースケースは私の実例だったような・・・~~

どんな手順で観察してみるか？

さっくり次の手順でいくことにします．

データ前処理．単語分割とかします．
テキストの特徴量化．
クラスタリング実行．
D3.jsのツリー構造で内容の可視化
クラスタを説明するデータの用意

データ前処理と単語分割

ライブドアニュースコーパスは「タイトル」と「本文」の２種類のテキストがあります．

今回はこの２つを別々の特徴量として扱いましょう．

Mecabでさっくり単語分割します．このスクリプトが前処理をします．

テキストの特徴量化

ライブドアニュースコーパスは「タイトル」と「本文」の２種類のテキストがあります．

まずはタイトルテキスト．タイトルは短いテキストです．これくらいの短さならば，word embeddingの平均化でも問題ないでしょう．

次に本文．
本文はそれなりに長いです．この長さをword embeddingの平均化・・・というのは少し乱暴な気がします．

Doc2vecはモデルを作ってる時間と手間も惜しいです．
Bertをサクッと実行できるだけの計算機リソースの用意も面倒です．

他にも文書をベクトル埋め込みする手法は選択肢はありますが，何より時間がありません

そこで，古典的に単語頻度行列 & 行列圧縮のアプローチにします．

全体の流れはこのスクリプトです．

クラスタリングの実行

ここはコードを示しながら説明します．全体の流れはこのスクリプトです．

まずは特徴量行列をセットします．

１回目のタイトル行列は title_vectors です．
２回目の本文行列は low_dim_matrix です．

両方とも (文書数 * 特徴量次元数)の行列です．

flexible_clustering_tree.FeatureMatrixObject に行列をセットするときに level にセットしたい回数を指定します．

import flexible_clustering_tree

# ここらへんにいろいろ処理を省略
feature_1st_layer = flexible_clustering_tree.FeatureMatrixObject(level=0, matrix_object=numpy.array(title_vectors))
feature_2nd_layer = flexible_clustering_tree.FeatureMatrixObject(level=1, matrix_object=low_dim_matrix)

次に，この２つのFeatureMatrixObjectを１まとめにします．

dict_index2attributesにはデータの補助説明をできる情報を格納できます(option)．
特徴量としては一切使われません．
後で可視化したツリーにこの情報が表示されるので，解釈が楽になります．
ここでは，タイトル・本文・カテゴリラベルを格納しておきます．

text_aggregation_fieldには 2次元リスト [[単語]] を格納できます(option).
この情報で単語集計して，可視化したツリーに集計情報が表示されるので，解釈が楽になります．
二次元リストは 文書数 * 単語数(可変でOK) です．

multi_matrix_obj = flexible_clustering_tree.MultiFeatureMatrixObject(
    matrix_objects=[feature_1st_layer, feature_2nd_layer],
    dict_index2label={i: label for i, label in enumerate(livedoor_labels)},
    dict_index2attributes={i: {
        'file_name': livedoor_file_names[i],
        'document_text': ''.join(document_text[i]),
        'title_text': ''.join(title_text[i]),
        'label': livedoor_labels[i]
    } for i, label in enumerate(livedoor_labels)},
    text_aggregation_field=document_morphs_text_aggregation
)

次に，クラスタリング手法の指定をします．
１回目はHDBSCANで全体分布を考慮しながら分けてもらいましょう ²
HDBSCANにはクラスタ数指定がないので， n_cluster=-1の指定にします．

from hdbscan import HDBSCAN
clustering_operator_1st = flexible_clustering_tree.ClusteringOperator(level=0, n_cluster=-1, instance_clustering=HDBSCAN(min_cluster_size=3))

2回目は決め打ちで8個のクラスタに分けることにします．

from sklearn.cluster import KMeans
clustering_operator_2nd = flexible_clustering_tree.ClusteringOperator(level=1, n_cluster=8, instance_clustering=KMeans(n_clusters=8))

次にこの２つのClusteringOperatorを１つにまとめます．

multi_clustering_operator = flexible_clustering_tree.MultiClusteringOperator([clustering_operator_1st, clustering_operator_2nd])

で，クラスタリングを実行します．

max_depth=3を指定すると，深さ3まで分けられるだけ分けてくれます．分割できなくなると，自動的にストップします．

２回目以降のクラスタリングには，最後に指定されたクラスタリング条件が使われます．

つまり，本文特徴量をKmeansでクラスタリングします．

# run flexible clustering
clustering_runner = flexible_clustering_tree.FlexibleClustering(max_depth=3)
index2cluster_no = clustering_runner.fit_transform(multi_matrix_obj, multi_clustering_operator)

ツリー可視化をして，htmlに保存します．

html = clustering_runner.clustering_tree.to_html()
with open(PATH_OUTPUT_HTML, 'w') as f:
    f.write(html)

後で，データ集計したいので，テーブルをtsvに出力しておきましょう．

# 集計目的のテーブル情報を取得できる
import pandas
table_information = clustering_runner.clustering_tree.to_objects()
pandas.DataFrame(table_information['cluster_information']).to_csv('cluster_relation.tsv', sep='\t')
pandas.DataFrame(table_information['leaf_information']).to_csv('leaf_information.tsv', sep='\t')

D3.jsのツリー構造で内容の可視化

このクラスタはタイトルだけで分割された結果です．赤枠のノード横に単語集計情報が出ています．アプリ・Android・Googleという内容からして，Androidスマホに関する話題のようですね．

次にこのクラスタ・・・単語集計からもうかがいしれますが，やはり独女通信でしたね
#金持ちと結婚したい のようなタグがありえるかもしれません．

このツリーは上から下にクラスタの大きさ順にソートされています．
では，一番したのクラスタを見てみましょう．
data-idのフィールドにクラスタサイズが書いてあります． 6,515もの文書がこのクラスタに入っているようです．
これは「その他」クラスタのようですね．HDBSCANのような密度型クラスタリングにはよくあることです．