先週末は時間的な余裕がなく、いつものシリーズに時間を割けませんでした。
と、言うことで、代わりの小ネタ。
仕事の過程で分析屋以外の人に「テキストマイニングとはなんぞや」と言うことを説明する事になりまして、まぁLDA使ったトピック分析とかもあるけど、説明が手間なので、とりあえず形態素解析して頻度分析する雰囲気を説明しようかと思いました。
その中で、N-gramを使って描画して説明したのですが、割とウケがよかったのでこれはblogネタになるぞテキストマイニングを説明する好例だぞと思い、ここに載せておきます。
いわゆるネタ共有の備忘録です。
「メロスは激怒した」・・・本当に?
「メロスは激怒した」は太宰治著走れメロス:青空文庫の有名な導入です。日本に住んでいる人なら、何回か「メロスは激怒した」と言う一文は耳にしたと思います。
『走れメロス』(はしれメロス)は、太宰治の短編小説。処刑されるのを承知の上で友情を守ったメロスが、人の心を信じられない王に信頼することの尊さを悟らせる物語。
と書いてあります。実はメロスをまともに読んでなかったですが、これを読んで意外な感じがしました。
メロスは激怒した
↓
王様に殺されそうになった親友を助けるため三日かけて走った
↓
色々あったけど結局ハッピーエンド
だと思っていたら、そうでもなさそうだぞ?メロスが、人の心を信じられない王に信頼することの尊さを悟らせるとか、わりと理性的じゃね?とか思ったわけです。
これは調べる必要があるなと思い、文章全体にテキストマイニング手法のNgram詳しくはここを参照:Ngram(N-gram)とは何か & 形態素解析との比較 のバイグラム(N=2)を使って"メロス"feat."激怒"がどれだけ引っかかるかをチェックしました。
分析
参考にしたサイト
テキストマイニングに関する入門
さくっとはじめるテキストマイニング(R言語) スタートアップ編
Windowsで作ったtxtファイルのSJISをLinux向けのUTF8に変換するツール
Rコンソールで日本語が表示できない状態を回避する方法
Rコンソールでの日本語表示 文字化け対応について(Mac OS Xの場合)
MacOSXのRでコンソール上では日本語使えるのにplotすると文字化けする場合の対処法
RStudio for MacOSX でプロットが文字化けする場合のメモ
viエディタの基本的な使い方/Introduction
準備
ツール:R & Mecab
テキスト:青空文庫
必要なRパッケージ:
install.packages("RMeCab", repos = "http://rmecab.jp/R")
install.packages("igraph")
結果
とりあえず、Plotがあんまりごちゃごちゃしないように、出現頻度を3以上にして見ると、

とまぁ、このように”メロス”feat.”激怒”はbigram(N=2のNgram)では拾われませんでした。
(注釈:上の図では一緒に出て来る単語ほど近くに描画されます)
実際に、コピペしたテキストを単語検索して「激怒」の数を調べると2回しか出てこないんですよね。
しかも「怒った」とか「腹がたつ」とかは見つからなかった。
では、これを元に
「メロスは大して激怒していない」
と結論づけていいのか?と言うと、分析屋として(屋ではなくても)そこまで言い切るのはちょっと・・・って感じがしますよね?
・最初の1文より後はメロスの行動で怒りの表現をしているのではないか?
・メロスの発言を拾うと激怒しているのがわかるのではないか?
・そもそも”走る”と言う行為が怒りの表現なのではないか?
すぐ思いつく反論としてこんなものが出てきます。
なので、そこはちゃんと調べてレポートするのが分析屋のスジ。
原文を斜め読みしてあらすじを理解しました。
走れメロスあらすじ
読んでみたけど、やっぱりメロスは最初の2〜3パラグラフしか激怒していませんでした。
メロス、妹の結婚用品をシラクス市に買いに来るが市中の雰囲気が暗い
↓
「かの邪智暴虐の王」ディオニスが猜疑心に囚われ人を殺しまくるのが原因と判明
↓
メロス、王様殺害のために城に突入するも捕らえられ磔刑になる事が確定
↓
(ディオニスに「人を信じる心」を取り戻させるため)「無二の親友」セリヌンティウスを人質に、妹との約束を守らせてくれと懇願
↓
メロス、三日で帰って来る事を約束。セリヌンティウスは人質に
↓
一晩で故郷に戻ると、妹と婿を説き伏せて、翌日式をするように説得
↓
式の間に抜け出し、仮眠。翌朝すぐにセリヌンティウスの元へ向かう
↓
なんやかやあったけどギリギリ間に合って、邪智暴虐の王は改心した
↓
メロスは、ひどく赤面した
最後は少女に全裸を見られて照れてます。激怒のゲの字もありゃしない。
むしろ、自分の都合で親友を身代わりに差し出したり、
準備のできていない妹の結婚式を「俺が明後日死ぬから明日やれ」と説得する始末。
激怒してたらこんなに知略は巡らせられない。頭働かない。
セリヌンティウス生贄にした後はやけに冷静だから、走って頭に昇ってた血が引いたんかな・・・
まぁ、太宰治氏の心中にはいろいろあると思うけど、文とかストーリーラインを見るとやっぱり激怒したのは最初だけでした。その後は大して激怒していません。
もういいや。ってことで結論を出します。
メロスは怒りと感情に任せて周囲を振り回す情熱的ではた迷惑な若者であった
以上。お粗末様でした