リンク
次の記事:計量文献学入門_01:著者推定の概要とデータの前処理
はじめに
しばらく前、趣味(あるいは学業)で計量文献学について触れる機会がありました。そこで得た知識やらなんやらの備忘録として記事を残します。狭い学問分野ですが、どなたかの助力になれば幸いです。
なお、この記事は『計量文献学入門_xx:*』に関連して執筆する予定です。計量文献学についてふんわり解説しながら、実際に著者推定を行ってくので、他の記事も参照ください。
この記事の目標
私自身まだまだ初学者です。計量文献学の概要を、能書きをたれながらなんとなく理解することがこの記事の目標です。
計量文献学とは
文学や哲学、宗教学といった様々な分野における重要な文献は、「本物なのか」「成立年代はいつなのか」「執筆者は誰なのか」といった諸問題を抱えていることが少なからずあります。さらに、その文章の特徴(文体)は、読み手の感覚的な評価によって決定されるため、解決に導くことが簡単ではありません。
そのため、文献に現れる特徴を定量化し、客観的な観点からこれらの問題を解明しようとする手法が考えられました。その研究を行うのが計量文献学です。この研究分野では、例えば
- ある単語の出現率
- 品詞の出現率
- 読点の打ち方
- 出現する語彙の量
といった観点から文献の特徴を抽出し、その文献の考証を行います。
以前は小規模な解析が行われていたようですが、現在はマシンパワーによって、大量な文献データを用いた解析が行われるようになっています。
諸研究
この学問分野の、有名なトピックを取り上げます。
源氏物語
平安時代に成立した有名な古典『源氏物語』は、全54帖からなる長編物語であり、その作者は紫式部であると言われています。しかしながら、末尾の宇治十帖(うじじゅうじょう)と呼ばれる十帖は、別の著者が執筆したという説が古くから存在します。
安本美典(1958年)は各巻ごとに(1)頁数、(2)和歌の使用度、(3)直喩の使用度、(4)声喩の使用度、(5)色彩語の使用度、(6)心理描写文の数、(7)文の長短、(8)名詞の使用度、(9)用言の使用度、(10)助詞の使用度、(11)助動詞の使用度、(12)品詞数を調べました。その結果、宇治十帖と他の四十四帖とは有意な差がみられたと結論づけ、作者は異なる可能性があると報告しています。
村上征勝、今西祐一郎(1999年)は、『源氏物語』54巻の本文すべてを単語に分割し、約37万6千語のデータベースを作成しました。そして、主に助動詞の出現頻度に着目し分析を行い、他の研究と同様に宇治十帖の異質性を指摘しています。
他にも様々な研究がありますが、特に安本のそれは、国語文献の計量分析において先駆的な研究です。以降、宇野浩二や井原西鶴などの文学作品も計量的な手法で分析がなされました。
シェイクスピア
外国文献の計量的な分析は日本のそれよりも早く、「ド・モルガンの法則」でおなじみのDe Morganが、文章の統計的な分析により著者推定ができる可能性を唱えたことにあります。
Mebdenhall(1901年)はシェイクスピアが執筆したとされる戯曲を対象に分析を行いました。もとよりシェイクスピアの著作は別人(フランシスコ・ベーコン)であるという説があります。彼はシェイクスピアとベーコンそれぞれの作品に出現する単語の長さを調べ、その長さの最頻値を根拠としてベーコンが書いたという説を否定しました。
この研究が嚆矢となって、様々な文献の計量的な分析が行われるようになったそうです。なお、その他のシェイクスピア別人説はwikipediaが詳しいのでそちらに譲ります。
頻出する特徴量
特徴量は分析目的によって使い分けられ、今日までに提案されている著者の特徴を定量化する観点は多くあります。この節では、近年の研究でよく用いられている特徴量を(独断と偏見で)まとめています。細かな解説は、次回以降触れる機会があればその都度行っていきます。
説明 | |
---|---|
品詞の出現頻度 | 名詞や動詞、形容詞といった品詞が、文章中にどれくらい出現するかを観点とする特徴量。 |
n-gram | n個の要素の連なりをn-gramと言う。 文字や品詞、音素などの連なりを抽出する。 |
読点の打ち方 | 日本語特有の観点。読点の間隔やどのような品詞の後に出現するかなどを調べ、定量化する。 |
語彙の豊富さ | 文章中に出現するすべての語の数と、それに対する異なる語の数の比率。K特性値やHerden'Cなどの、工夫された計算式も提案されている。 |
各機能語の使用度 | andやofといった文法機能に係る語を機能語といい、日本語では助詞や助動詞に相当する。機能語のうち、どの語がどれくらい出現するかを観点とする特徴量。 |
おわりに
本記事では計量文献学の概要を解説しました。次回以降は、実際に頻出する手法を用いて著者推定タスクに取り組んでいきます。どうぞよしなに。
参考文献
- 安本美典(1958年)「文体統計による筆者推定-源氏物語・宇治十帖の作者について」『心理学評論』Vol.2 No.1 147-156
- 村上征勝 今西祐一郎(1999年)「源氏物語の助動詞の計量分析」『情報処理学会論文誌』Vol.40 No.3 774-782
- Mendenhall T.C.(1901年)「A mechanical Solution of a Literary problem」『Popular Science Monthly』Vol.60 97-105
- 村上征勝 金明哲 土山玄 上阪彩香(2016年)「計量文献学の射程」 勉誠出版