きっかけ
- 映画Yesterdayを見て、Beatlesの音楽を懐かしむ
- 形態素解析でおしゃれなことをする記事を発見
- まずは英単語なら簡単に区切ることができると考え手っ取り早くword cloudで可視化してみた
で、こんなアウトプットを用意してみた。
利用するもの
- beatlesの歌詞一式 (https://github.com/JohannesBuchner/zwicky-morphological-analysis)
- Webスクレイピングしなくてもとっくにcsvで用意されている。さすが。
- Wordcloud Custom Visualization (https://splunkbase.splunk.com/app/3212/)
- 可視化のためのApp
- Lookup File Editor (https://splunkbase.splunk.com/app/1724/)
- lookupファイルの中身の編集を楽にするapp
How to
1. bealtesの歌詞がすべて記載されたlookupファイルをSplunkに登録
- beatles-lyrics.csvファイルをインポート
- lookupの定義
- |inputlookupコマンドでサーチできるようにするためにlookup定義を設定
2. SPLを使って可視化
- とりあえず全部まとめたら以下のSPLです
| inputlookup beatles
| table song
| makemv delim=" " song
| mvexpand song
| stats count by song
| sort 200 - count
ポイント①: makemv
- songのフィールドの中身をスペース区切りで分ける
ポイント②: mvexpand
- songのフィールドに複数の値が入っているものを1つ1つのイベントに分ける(パット見上と変わりないが、1イベントごとに別れています)
チューニングポイント
- この単語外したいなと思ったら、以下の行をサーチに追加
| search NOT song IN (you,to,the,I,and,a)
- 少し中身が変わりました。