はじめに
書籍や論文、データ、あるいは音楽など、なんらかのコンテンツをそのメタデータで検索する、ということが一般的に行われていますが、それが本質的にはどういうことか、考えてみたいと思います。
なお、メタデータといってもいろいろありますが、今回はコンテンツの内容を記述したメタデータ(例えば書籍や論文の場合の書誌事項)を考えます。
図書館のOPACにせよ、検索エンジンにせよ、生成AIなどによるベクトル検索にせよ、書籍や論文など基本的に文字データのコンテンツはもちろん、データ、音楽や画像なども、一次的にはコンテンツ本体から生成されたメタデータを介して検索するこことが一般的です。
最近は、音楽に鼻歌検索があったり、画像も〇〇レンズで検索できたりもしますが、どちらかというとまだまだ二次的かなぁと思います。
書籍や論文も、10年以上前から、全文電子データがあることの方が普通になっているので、それで検索すればよく、メタデータで検索する意味ってなんだろう、というのがこの文章の趣旨です。
検索するとは
コンテンツの全体集合をU(“Universal set” のU)とし、U の部分集合S(”Sub set”のS)をそれぞれのコンテンツとし、それらすべてが検索可能であると仮定し、検索者(機械でもよい)の情報要求N(”Needs”のN)がU に含まれているかを調べ、含まれていればN が含まれるS を特定することを、検索するということと、ここでは仮に定義してみます。
実際には、通常情報要求Nを、機械が理解できるようなクエリQに変換し、コンテンツ全体Uも機械でマッチしやすいようにインデクスやベクトル化などが行われます。
なぜメタデータが必要か?
検索のインターフェースは、未だに、何らかの文字列を入力することがほとんどなので、音楽や画像あるいは数値データなどそもそも文字列でないものに、文字列のメタデータをつけることが検索にとって必要なことは分かりやすいです。
一方、書籍。論文やウェブサイトなどは図表などが含まれるにせよ基本的に文字列ですから、それで検索すればよかったはずです。
あえてメタデータを付与する意味を考えると、少なくともベクトル検索などが実用的になる以前は、クエリQは基本的に単語であったため、以下のようなことが考えられます。
- コンテンツS全体のなかで、クエリQに瓦当する単語の重要度が分からない(単純に出現数が多いものというアプローチや。TF-IDF、BM25などのアプローチはありましたが)
- 複数のキーワード間の関係が分からない
- 少ないキーワードをクエリとするので、上記が分からなければ、マッチ(ヒット)する数が多すぎることがほとんど
- 特に小説等文学の場合、こういうものが読みたい、という情報要求NとコンテンツSに含まれるキーワードとの一致を見つけることは、なかなか難しい
メタデータとコンテンツの関係
メタデータMとコンテンツS、クエリQと情報要求Nとの関係を図式にすると、以下のようになります。
N → S
↑ ⇒↑
Q → M
つまり、直接、情報要求NからあるコンテンツSに変換(写像と考えてもよいかも)できれば、あるコンテンツSが見つかりますが、それは難しいので、クエリQをメタデータMに変換することで、結果としてメタデータMに該当するあるコンテンツSが見つかる、という関係になります。
この時、あるコンテンツSとメタデータM、クエリQと情報要求Nはそれぞれ本質的に同じものを示していると仮定すると、N → Sという変換とQ → Mという変換も本質的に同じ、と考えることができ、このQ → M が検索の意味であり、メタデータM が見つかればあるコンテンツS にたどり着けます。
おわにり
ちょっと飛躍すると、コンテンツが指し示すもの(圏)と、メタデータが指し示すもの(圏)とが、本質的に同じ(圏同値)であれば、コンテンツから記述的メタデータへの直接的な変換が可能である、と圏論風の言い方もできるかな、と思っています。
超当たり前ですが、メタデータがコンテンツの中身を表していないと、検索の役には立ちません。
ただ、実際にはコンテンツとメタデータが本質的に同じ、というのをどう保証するかは結構面倒で、例えば学術論文ならタイトルと著者名、多くの場合はキーワードまで論文事態に書いてあるので、それでほとんどの場合よいわけですが、そうでないコンテンツはメタデータをとる人の主観に負うところも大きい、ということがあるように思っています。
だからなに、というのは今後の課題です・・・