概要
図書館情報学的には「主題を分析し、件名、分類を付与する」とは、個別的なコンテンツを、学問体系に照らして概念化し、統制された語彙に写像し、データベースの主キーとする理論的操作であると整理できます。これによって、生成AIを使い「主題分析」を自動化できるかどうかは、概念化を生成AIの持つ 平均的な 意味区間に依存することをよしとするのかどうかによって変わってくることを説明しました。
はじめに
以前、図書館目録の典拠コントロールの自動化に関する覚書を書きましたが、データベースとしての図書館目録では、テーマやジャンルなどを正規化し「主題分析」を行い、主キーとなる件名や分類を付与します。それらの作業を生成AIを使って自動化するために、「主題を分析し、件名、分類を付与する」ことについて理論的、技術的な位置づけを整理します。
主題分析とは何をしているのか
図書館情報学用語辞典第5版では、”主題分析:資料の主題を明らかにする作業、subject analysis”とされ、
同様に、”主題:テキスト資料,とりわけ活字資料の著作の中で中心として論じられている概念.テーマ,論題などともいうが,芸術作品の主題とは異なるものと考えられている.日本では「件名」とも呼ばれてきた”
と定義されていますが、理論的には以下の段階を含みます。
(1) コンテンツの内在的理解:
テキスト(資料)を読み、中心として論じられている概念(=主題)を把握する
(2) 概念としての抽象化(主題の取り出し):
具体的記述・事例・議論をより抽象的な概念レベルに引き上げる
(3) 学問体系への位置づけ:
コンテンツをある学問体系の中に位置づける
(4) 統制語彙へのマッピング(件名、分類付与)
つまり、コンテンツ=自由語(統制されていないテキスト)を 統制された学術的概念(件名、分類) へ写像または射影すること、が主題分析です。
ちなみに、図書館で件名とは、例えば、
BSH : 資料分類法
NDLSH : 図書分類
のように書かれている部分で、これを数字などの記号で表したものが分類で、
NDC10 : 014.4
NDLC : UL651
のようなものです。
図書館の本の背のしたの方に貼ってあるラベルのアレです。件名と分類は、体系が若干違うので1対1対応ではありません。
「主題を分析し、件名を付与する」とは
資料の意味内容の中心概念を抽象化し、学問的・知識的体系の中に位置づけ、共有可能な統制語彙を付与し、知を個別性から公共性へと変換する行為だと言えます。
図書館の実務的には、そのような位置づけを行わないと、置き場所が決まらないし、分野ごとに探せない、ということになります。
ここ30年くらいで、タイトルなどのキーワードを検索することが当たり前になっていますが、タイトルなどだけでは、その本に実際に何が書いてあるか、は分かりにくいことが多いため、このような作業が必要になります。
これは、最近重要度が増したデータマネジメントでも同様です。
技術的な意味
技術的な観点としては、多くは図書館目録の典拠コントロールの自動化に関する覚書と重なるので省きますが、ここでは生成AIによる主題分析の自動化について触れます。
先述の過程の中で言うと、概念が抽出できている場合それを統制語彙にマッピングすることは技術的には難易度は高くなさそうです(実装上の課題はあるにせよ)。
問題は、コンテンツの内在的理解、概念としての抽象化の部分です。もちろん、最近の生成AIによる要約、NER(固有表現抽出)などの精度はかなり高くなっていますが、それでも、人間と生成AIでは要約や概念抽出をするポイントに微妙なズレがあることは、体感上よくあります。例えば「よくまとめられているけど、ちょっっととポイントがずれているんだよね...」ということがそこそこの確率であるように思います(チャットで1,2回やりとりをすれば、ほとんどの場合修正されるのですが)。
次の節では、この問題を考えてみます。
情報多様体としての意味空間
LLMの内部はベクトル空間で意味空間が表現されている、という雑な理解をしていますが、より一般化した情報幾何学、情報多様体として理解する、という記事も見かけます。人間の頭の中の意味空間も情報多様体という比喩で理解できます。
この比喩を前提とすると、生成AIは平均的な意味空間を持っているのに対し、人間は、人間ごとに意味空間が異なっているため、生成AIと人間とで要約や主題分析の意味的ズレが起こるのは必然と言えます。
ここでいう“平均的”とは、学習データ全体の統計的構造を反映した潜在空間という意味である。
同じ文章でも、人間とAIでは“幾何的に違う位置関係”として認識する、と言い換えることもできます。
写像(mapping)、射影(projection)としての主題分析
人間とAIが異なる意味空間を持つという前提に立つと、主題分析とは、
それぞれの意味空間から、統制語彙という“共通の低次元空間”への射影操作である
と捉えることができる。
主題分析は
コンテンツ → 概念
という「写像」「射影」の比喩として考えることもできます。
「写像」「射影」は、数学的には
- 情報の一部成分を落とす(次元圧縮)
- 主成分方向を残す(意味の保存)
- ノイズを除去する
という性質があります。
つまり、「主題分析とは何をしているのか」を、幾何学的な比喩で捉えると、
元のコンテンツ=情報多様体上での、統制された学術的概念(件名、分類)への射影(projection)または写像(mapping)
と解釈できることになります。
目録の源流
余談ですが、図書館目録の源流の一つとして、中国清代の章学誠による、
「学術を弁章し、源流を考鏡す。(学術を弁別して明らかにし、源と流れを考察する。)」
wikipedia
という言葉がよく取り上げられます。
これは、
- 「弁章」=ある知的営為を区別し・明確化する
- 「源流を考鏡す」=それを知の体系・系譜の中に位置づける
であり、コンテンツをある学問体系の中に位置づけると考えれば、現代の**主題分析(subject analysis)**とほぼ同型です。
まとめ
一文でまとめるなら、「主題分析とは、個別的なコンテンツを、学問体系に照らして概念化し、統制された件名、分類を付与する理論的操作である」と言えます。
これを生成AIによって自動化できるかどうかは、「概念化」をある学習データによって作られた生成AIによって平均的な概念に位置付けることでよしとするのか(それ自体は技術的には十分可能だし、実装上の課題はあるにせよ理論的には可能です。)、平均的な概念に位置付けるのではなく、ある学問的、学術的な背景をもった人間が概念化すべきなのか、によって変わってくるのだろうと思います。