共起ネットワークというのがあって、説明によると何百次元かを使って使われている語をどーのコーの。確かに単語の書かれた円をマウスでドラッグすると「びよーん」。
おお!ってなるけど、で、これ、だからどうなの、どうすんの?
というわけで、テキストマイニング素人の私が大胆な発想で共起ネットワーク図がどんなに便利なものであるか、直感でわかる例を作ってみました。
さて、学校や職場で「人権標語」を作ってこいと言われること、ありますよねえ。毎年めんどうだなあ、と思いながらしのぐのですが、そこで思いつきました。「過去の優秀とされた人権標語を集めてテキストマイニングしたらどうなるだろう」。
つまり「人権標語によく使われる単語がその親和性をもって平面上に展開されている」わけなので、この図を見ていれば、なんとなく耳障りが良い人権標語が簡単に作れてしまう。
- 見る話す、笑顔が広げるこころの輪
- 思いやり、違う個性を守ること
- 相手の気持を考えて、出てくる一言ありがとう
意味はよくわからないのだがボツにするのも後味が悪い。そのレベルのものが量産できる。
これで今後人権標語に苦労することはなくなりそうだ。
でも、これ、それほどあっさり作れるものでもないんだよ。というのは「小学生はひらがなで書いている」のでこれを全部漢字になおさないといけない。MeCab使って単語に分けて、ひらがなは漢字に直し、助詞・助動詞はカットする、といった前処理が必要でした。
もちろん、それ以前にどういう前処理をするとわかりやすい図ができるかという試行錯誤が必要でした。
一方で同じデータから自己組織化マップを作っても、ここまでわかりやすくなりません。実はWord2Vecでもやってみました「過去の優秀作品の単語を入れ替える際の候補を選ぶ、くらいの役には立ってほしかった。得意不得意がある、ということでしょう。
なお、この辺のテキストマイニング処理はKHCoderを使わせてもらってます。ありがとう。
ちなみに「人権標語 & 優秀作品」でヒットした全国の自治体のホームページから500ほど集めてきました。これで地方別の特徴なんかがでて来ると面白いのですが「そもそも太平洋沿岸、東北は人権標語に熱心でない」程度の結果しか出てませんです。