This article is a Private article. Only a writer and users who know the URL can access it.
Please change open range to public in publish setting if you want to share this article with other users.

More than 5 years have passed since last update.

文化計量学について - 漫画自然言語処理の視点から

自然言語処理

Last updated at 2015-04-17Posted at 2015-04-14

文化を計る村上征勝著

この本には、文化的なもの、つまり自然科学的ではない曖昧なものを対象にした計量分析に取り組む際に心がけるべき心構えが提示されています。著者のこれまでの経験から得た考え方をまとめられたのだと思いますが、とても良い内容だと感じており、内容を心にとどめながら分析を進めたいと思います。

計量的文化研究とデータ

一般にデータは、名義尺度のデータ、順序尺度のデータ、間隔尺度のデータ、比例尺度のデータの4種類に分けられる。

とあり、

計量的文化研究で用いるデータは、自然科学の領域のデータに比べ、質的データ、特に名義尺度のデータが多く、またそれが研究上重要な役割を担う場合が多い。しかしながら、質的データには測定者の主観が入る余地があり、データの精度の点で問題が生じる。したがって、計量的文化研究におけるデータ分析は、自然科学の研究におけるデータ分析より、この意味ではむずかしいといえる。

と説明されています。

漫画特徴データにおける質的データについて

「マンガの構成要素の定量的な解析と類似度判定」では、「マンガの作者のクセを抽出するために，以下の定量的な特徴を分析した．(1) セリフ内容，(2) フキダシの種類，(3) オノマトペの使用頻度，(4) 集中線の使用頻度，(5) 視線誘導，の 5 つの特徴を分析」しています。

この中でフキダシの種類は明らかに名義尺度です。また、オノマトペの使用頻度、集中線の使用頻度は「それがオノマトペなのか？」「それが、集中線なのか？」の判断に主観が入ります。視線誘導についてはどのようなものかわからなかったので、どんなデータかわかりません。このように、先に指摘されていた質的データに基づいた特徴抽出に頼ることになり、データ分析が難しく慎重に行う必要があると感じています。

対局をつかむことの重要性

文化現象に限らないが、複雑かつ曖昧な現象の計量分析においては、対局をつかむことが重要である。対局をつかめば総合的理解が容易となる。最初から精密な分析を狙うと、「木をみて森をみず」のたとえのように全体像がつかめず、何が本質的に重要なのかを見失う可能性が高い。

では、大局的にとらえるには何が重要なのですか？

ところで、現象を対局的に把握し、現象の総合的理解を進めるためには、どのような種類（項目、変数）のデータを生成すべきかを決めることが重要な問題となる。

例えば何でしょうか？

一般に、文化現象を理解するためのデータの種類は無数に考えられる。たとえば、作家の文体に注目した場合、文体に関する情報として、文長、単語長、単語の出現率、品詞の出現率、品詞の接続関係、語彙量、読点の付け方、などの膨大な種類のデータを生成することが可能である。しかし、仮に、そのような膨大な種類のデータが生成できたとしても、計量分析でそれらすべてを用いることは実際には不可能であるし、また現象を理解するうえで役立たないデータが多く含まれていることも考えられる。

使えるデータを探す

本書では計量文献学として、現代文を書いた谷譲次、林不忘、牧逸馬、という3つのペンネームを持つ長谷川海太郎（1900-1935）の文章を分析しています。分析の軸となるデータとして書き手がほぼ無意識に付けているであろう読点に注目しています。どのような過程で読点に注目するに至ったのかまで記載されていませんが、長谷川が3つのペンネームでそれぞれ異なる文体で文章を書こうとしていた点をふまえ、「無意識的にとってしまう文章の癖は何か？」を考え、読点にたどり着いたのかもしれません。

現象理解のためのデータ分析法

データの代表値 - 比率と平均値 -

多数のデータの値をまとめて一つの値で代表させるために、最も多く用いられるのが比率（割合）と平均値である。

データのバラツキの数値化 - 分散と標準偏差 -

比率や平均値は多くのデータを一つの値にまとめるときによく用いられるが、実はデータの集団としての特徴を表すには、比率や平均値だけでは不十分である。たとえば、ある作家の成熟期の４作品と晩年の４作品における助詞の出現率が、それぞれ
成熟期の４作品：0.302, 0.300, 0.297, 0.301
　晩年の４作品：0.274, 0.315, 0.326, 0.285
であったとしよう。成熟期、晩年の4作品の平均値はいずれも0.300である。しかし成熟期の4作品は出現率が安定しているのに比べ、晩年の4作品の出現率にはかなりのバラツキがみられる。助詞の出現率のバラツキの変化は作家の精神の変化が原因かもしれない。したがって、このようなデータのバラツキの度合いを示す量も現象の理解には必要となる。

文化計量学について - 漫画自然言語処理の視点から

計量的文化研究とデータ

漫画特徴データにおける質的データについて

対局をつかむことの重要性

では、大局的にとらえるには何が重要なのですか？

例えば何でしょうか？

使えるデータを探す

現象理解のためのデータ分析法

データの代表値 - 比率と平均値 -

データのバラツキの数値化 - 分散と標準偏差 -

二つの変数の関連の強さの数値化 - 相関係数 -

現象理解のための計量的手法

区間推定

直線回帰分析

主成分分析

数量化理論III類

クラスター分析