はじめに
最新、WordCloudを見かけることが増えたように思います。
WordCloudが簡単に描けるWebサービス等もありますが、単語の処理が微妙なものが多いようにも感じます。
WordCloudで大切なのは、品詞とStop wordの設定、それと見た目(笑)だと思いますので、とにかく、これらがコード操作なしに簡単に実行できるものを作ってみることにしました。
テキスト読込みでは、WordCloudがどのようなものか知らないという方のために、青空文庫のいくつかの書籍を選択できるようにしています。手元にテキストデータがない方でも見た目も好みに変えることも含め、WordCloudを体感していただければと思います。
実行条件など
- Google colabで実行
Open with colab ←こちらをクリックするとipynbファイルが起動します
青空文庫「こころ」での実行例
テキスト読込み
Select_Dataset にて dataset:こころ を選択、実行すると、青空文庫サイトからのZipダウンロード→解凍→テキスト読込み→冒頭・末尾の注釈カットを自動実行し、テキスト本文のみが表示されます。
形態素解析と頻出語のグラフ化
以下は、stop_wordsはデフォルトのまま、Number_of_words_to_display_in_graphで頻出語を25に設定し、表示したグラフです。
WordCloud
以下のようにCloudの形、背景色、文字色のカラーリングを変更することができます。
このWordCloudは、上記Settingで実行したものです。
ShapeをCommentに変えて実行すると以下となります。(設定を変更で自動実行します)
ShapeをTwitterに変えると、
ShapeをDonutsに変えると、
文字色のカラーリングをcopperに変えると、渋くなりますね。
文字色のカラーリングをSet1に変えると、印象はがらりと変わりました。
このまま背景色をblackに変えると、すこしサスペンスな感じ。
すべては紹介しませんが、いろいろ遊べると思います。
最後に
WordCloudは、カスタマーレビュー、アンケートの自由記述、書籍のテキスト、記事やニュース、議事録など、特に大量のテキストデータを扱う時、時間をかけずに全体を把握したいという場合に便利です。
アウトプットの姿は、テキストの内容がポジかネガか、シリアスにまとめるのか、すこし笑いを誘うのか等、TPOに沿って変えてみるとよいかもしれません。
WordCloudは自然言語分析の入り口でしかありませんから、これだけで分析完了!ってなことにはならないと思います。次のステップに進むぞ!と思えるか否かは、どれだけよい見せ方ができるかにかかっているかもしれません。笑
書籍の紹介
先日以下の書籍に出会いました。
自然言語分析の基本である形態素解析や係り受け解析、Bag-of-Words、TFIDF、word2vecなどもとてもわかりやすく説明されているなと思いました。
久々に「WordCloudが描きたい!」と思ったのは、この書籍で紹介されていたからです。
この書籍では、WordCloudをSudachi,GINZAを使用して実行されていました。(実行してみましたが動作速度はMecabが速い)共起ネットワークも扱われており、これらに興味がある方で、とくに初心者の方は、ベース知識含め、参考になると思います。
参考