LoginSignup
1
0

More than 3 years have passed since last update.

ウィキデータ語彙素(Lexeme)の紹介-1

Last updated at Posted at 2020-04-10

ウィキデータの要素には「項目(item)」以外にも「語彙素(lexeme)」というものがあり、これは言ってみれば辞書をデータ化して構造をもたせたものです。

ウィキデータの要素 識別子 対象 説明 実例
項目 Q番号 物事や概念 百科事典、ウィキペディアの記事に相当する単位からデータを抽出・構造化したもの Q11530693:松戸市立寒風台小学校
語彙素 L番号 言葉 辞書、ウィクショナリーの語句に相当する単位からデータを抽出・構造化したもの L291069:雪

世界中の語彙を構造化データとして集積するこの取組は2018年から始まり、2020年3月現在見出し語(Lemma)として約29万件が登録されています。

1 ウィキデータ語彙素の特徴

1.1 ウィキペディアとの比較

1.1.1 ガイドライン的なもの

ウィキデータ全体としてのガイドライン以上のものは未整備ですが、個人的にはウィクショナリーのガイドラインに近く、ウィキペディアとの対比では以下のような感じではないかと考えています。

・著作権に注意:全くその通りではあるものの、一般的な文献や論文から利用するのは見出しとしての単語や熟語が中心で、文章としてはせいぜい用例として引用する程度なので、基本的に著作権を侵害する可能性は低いと思われます。しかし、既存の辞書そのものについては、その媒体を問わず見出し部分にせよ語義にせよ丸写しすることは著作権もしくは編集著作権を侵害する可能性が高いため、避けるべきです。ウィキデータの語彙素とよく似たウィクショナリーのプロジェクトにNDLデジコレを中心とした著作権切れの辞書がリスト化されているので、このあたりを利用すれば問題はほぼ発生しないと思われます。ただし、当然ながら内容が古いため、現代の言葉に置き換えたり、使われなくなっているものは使わない、あるいは古語として分類した上で使う、といったひと手間が必要です。

・検証可能性:出典があったほうが良いのはウィキペディアと同じです。しかし例えば「石」「歩く」といった単語に出典をつけて検証可能性を示す必要性はさほど高くありません。例外的には新語や滅多に見ない単語についてその初出や出典を示すのは有意義ですが、通常は語義や文例といった文章部分についてだけ出典があれば十分だと思います。

・信頼できる情報源:出版された文献や論文の信頼性が高いのはその通りですが、言葉は時代とともに変化します。ネット上でのコミュニケーションが増えている現代にあってはネット上にある言葉はまさに今使われているものです。つまり、ネット上にある情報を引用の範囲で利用したり、単語を利用することは必ずしも信頼性が低い(使ってはいけない)情報源ということにはなりません。スラング辞典を作ったって良いわけです。

・中立的な観点:複数の説に分かれる内容がある場合には出典とともに両論を併記すべきです。独自研究も避けるべきです。

・特筆性:対象は単語や熟語なので考慮する必要はありません。言語として存在しないものでない限り登録することができます。

1.1.2 参加のしやすさ

ウィキペディアと比べると、まとまった文章を書く必要がなく、登録内容もおおよそ形式が決まっているため、参加のハードルは低いです。

1.2 他の辞書との比較

最大の特徴は単一の、多言語による多目的に使える辞書データである点です。構造が破綻しない限り、各国の標準的な言語、方言、俗語、古語、分野別の用語、類義語、といったあらゆる語彙の基礎データを構造化して登録し、関連付けを行うことで、多様な用途で自由に利用することができます。
まだまだ始まったばかりですが、データが蓄積されていけば人類の基本的な共有財産として非常に大きな意義を持つプロジェクトです。
ウィキメディア財団配下の類似プロジェクトとしてウィクショナリーがあり、英語版を始めとして連携の議論が始まっています。課題もあるようで、完全に統合されるのではなく、ゆるやかな連携を探る方向性だろうと思います。

2 登録例

2.1 見出し部分


語彙素の基本的な情報で、最低限この部分だけ分かっていれば登録できます。
・見出し:辞書を引くときの見出しに相当する部分です。漢字やかなをひとつまたは複数記述します。
・言語:「日本語」とします。
・語彙範疇:品詞を設定します。ここでは「名詞」が登録されています。

2.2 共通属性


見出しの語彙に共通する属性を、文(プロパティと値)の形式で、必要に応じてわかる分だけ設定します。品詞によっても変わります。(語彙素のプロパティ一覧
・読み仮名:読みをひらがなで登録します。
・修正ヘボン式ローマ字表記(ローマ字):読みをローマ字で設定します。
・発音(音声ファイル):コモンズに登録された読みの音声ファイル名を指定します。
・IPAによる発音表記:IPA発音記号
・IPA点字:ユニコード点字

等々、見てわかるように属性情報を丁寧に登録することで、ユニバーサルデザインに適したデータ整備につながり、用途が広がります。

2.3 語義


見出しの語彙について、その語義をひとつまたは複数登録します。雪についても天気としての「雪」もあれば、結晶としての「雪」、風景としての「雪」などがあります。
また、語義ごとに対応する別の言語、方言、画像、類義語などを関連付けて登録することで、その語彙の位置付けがより明確になり、翻訳用の辞書、方言辞典、類義語を探すための辞書といった使い方ができるようになります。

2.4 語形


動詞や形容詞の五段活用等の変化形を個別に登録します。この語彙は日本語の名詞で語形変化が無いため登録されていません。

ウィキデータ語彙素(Lexeme)の紹介-2 動詞の登録

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0