LoginSignup
9
8

More than 1 year has passed since last update.

ノーコードで、いろんな見た目の「Word Cloud」を描かせる(Google Colab使用)

Posted at

はじめに

最新、WordCloudを見かけることが増えたように思います。
WordCloudが簡単に描けるWebサービス等もありますが、単語の処理が微妙なものが多いようにも感じます。

WordCloudで大切なのは、品詞とStop wordの設定、それと見た目(笑)だと思いますので、とにかく、これらがコード操作なしに簡単に実行できるものを作ってみることにしました。
image.png
テキスト読込みでは、WordCloudがどのようなものか知らないという方のために、青空文庫のいくつかの書籍を選択できるようにしています。手元にテキストデータがない方でも見た目も好みに変えることも含め、WordCloudを体感していただければと思います。


実行条件など

  • Google colabで実行
    Open with colab ←こちらをクリックするとipynbファイルが起動します

青空文庫「こころ」での実行例

テキスト読込み
Select_Dataset にて dataset:こころ を選択、実行すると、青空文庫サイトからのZipダウンロード→解凍→テキスト読込み→冒頭・末尾の注釈カットを自動実行し、テキスト本文のみが表示されます。
image.png

形態素解析と頻出語のグラフ化
以下は、stop_wordsはデフォルトのまま、Number_of_words_to_display_in_graphで頻出語を25に設定し、表示したグラフです。
image.png

WordCloud
以下のようにCloudの形、背景色、文字色のカラーリングを変更することができます。
image.png
このWordCloudは、上記Settingで実行したものです。
image.png
ShapeをCommentに変えて実行すると以下となります。(設定を変更で自動実行します)
image.png
ShapeをTwitterに変えると、
image.png
ShapeをDonutsに変えると、
image.png
文字色のカラーリングをcopperに変えると、渋くなりますね。
image.png
文字色のカラーリングをSet1に変えると、印象はがらりと変わりました。
image.png
このまま背景色をblackに変えると、すこしサスペンスな感じ。
image.png

すべては紹介しませんが、いろいろ遊べると思います。

最後に

WordCloudは、カスタマーレビュー、アンケートの自由記述、書籍のテキスト、記事やニュース、議事録など、特に大量のテキストデータを扱う時、時間をかけずに全体を把握したいという場合に便利です。
アウトプットの姿は、テキストの内容がポジかネガか、シリアスにまとめるのか、すこし笑いを誘うのか等、TPOに沿って変えてみるとよいかもしれません。

WordCloudは自然言語分析の入り口でしかありませんから、これだけで分析完了!ってなことにはならないと思います。次のステップに進むぞ!と思えるか否かは、どれだけよい見せ方ができるかにかかっているかもしれません。笑

書籍の紹介

先日以下の書籍に出会いました。
自然言語分析の基本である形態素解析や係り受け解析、Bag-of-Words、TFIDF、word2vecなどもとてもわかりやすく説明されているなと思いました。
久々に「WordCloudが描きたい!」と思ったのは、この書籍で紹介されていたからです。
この書籍では、WordCloudをSudachi,GINZAを使用して実行されていました。(実行してみましたが動作速度はMecabが速い)共起ネットワークも扱われており、これらに興味がある方で、とくに初心者の方は、ベース知識含め、参考になると思います。

参考

9
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
8