滝沢カレンのインスタグラムの文章に中毒者が続出してるらしい。
滝沢カレンの理解不能なインスタwwwwwwwwwwww
引用元: https://www.instagram.com/takizawakarenofficial/
#どのような文章構造になっているのだろう
実際に滝沢カレンの文章を読んでみると、日本語としてはなんとなく読めるのだが、文章の意味がなかなか頭に入ってこない。はじめは、何となく、ディープラーニング(RNN系かなにか)でコーパスを学習して、文生成した結果なのかとも思った。
このように感じる要因は色々あると思うのだが、言語処理的に、どのくらい理解不能な文章なのかを調べるために、滝沢カレンの文章を構文解析して、結果を可視化した。
##手法
- CaboChaを使って構文解析を試みた。
- 滝沢カレンの文章には句点「。」がほとんど使用されず、句点のかわりに絵文字が使われている。そのため、絵文字の連続を文の切れ目として文章を文単位に分割した。
- 構文解析結果のグラフ構造をpydotplusを用いて可視化した。
##事例1
###入力文
誕生日翌日にして、少し24歳の一年間を思い出しつつも、25歳へのバトンタッチにやや戸惑いを隠しながら、もはや目もはっきりしないままノソノソと行き着いた先に、私の開きもしない目に入って来たのがこのチラシでした
###解析結果
この例をみてみると、複雑な構文構造になっているものの、係り受け自体は、ほぼ正しく解析できていて、日本語としては正しい構文構造を持っていることがわかる。ただし、1文が長く、係り受けが並列関係になっているケースが多いため、人にとっては捉えにくい文章なのだと思われる。
グラフ上の各ノードを出現順序の順番に追っていって、文章を読んでみると、グラフ中での移動距離が大きい、と感じられると思う。つまり、文の意味をシーケンシャルに頭の中で追う際に、構文グラフ上の移動距離が大きく、脳内のワーキングメモリをたくさん消費することになり、理解しにくくなっている(のかもしれない・・・よくわからない)。
##事例2
###入力文
ふと振り向くと、たくさんの味方がいてたくさんの優しい人間がいることを、わざわざ自分の誕生日が来ないと気付けない自分を奮い立たせながらも、毎日こんな、湖のようななんの引っ掛かりもない、落ちつき倒し、音一つも感じさせない人間でいれる方に憧れを持てたとある25歳の眩しき朝のことでした
なかなかファンキーな複雑さである。このような構文木を人が脳内で展開できるとは思えず、シーケンシャルに読んで理解できるはずがない。文が長く構造が複雑なため、構文解析上の解析誤り(?)も発生しているように見える。特許の文章に匹敵する理解しにくさなのではないだろうか。
ニュース記事の解析例
対比として、普通の文章での構文解析の結果を載せてみる。
###入力文
全国47都道府県と20の政令指定都市のうち、災害時の行方不明者の氏名公表について、基準を設けていない自治体が7割に上ることがわかった。改正個人情報保護法の30日施行に合わせ、朝日新聞が各自治体にアンケートした。氏名を「公表しない」という回答も5自治体あった
引用元: https://www.asahi.com/
###解析結果
上記のように、ニュース記事のように、読みやすく編集された、普通の(?)文章の場合は、文はそこそこ長くとも構文構造の並列度が何となく低いため、読むのに苦労しない。
まとめ
-
滝沢カレンのインスタの文章を、言語処理で解析(構文解析)してみたら、たしかに人にとって読みにくい文構造を持っていることが何となくわかった。
-
ただし、文章の読みやすさ(読みにくさ)には、構文構造以外の要素がたくさんあるのだと思う。構文構造的には受理される文である(非文でない)が、意味レベルでの破綻、矛盾が含まれている場合がある。構文解析ではそのレベルの破綻検出はできない。
-
意味レベルで、どうして面白いのか?や、中毒性があるのか? も解析してみたい。どうやるのだろうか。
今回使ったコードです。https://gist.github.com/naoyu822/6703e3b22eb98230ab76596918c6779e