概要
国立研究開発法人情報通信研究機構が公開している日本語の意味辞書である「日本語WordNet」のXMLファイルを変換してJSON形式にしました。
改行区切りのJSONになっており、93,836行のデータになっています。先頭の1行はコメント、最後の1行は空行です。JSONには語のID、見出し語、品詞、意味、同義語がセットされています。
{"id":"w195566","item":"学校","pos":"n","glosses":["教育機関。","学校の授業期間。学校で授業が行われる期間。"],"synonyms":["学校","学院","スクール","学園","授業","学校","授業時間"]}
作成したJSONデータは以下で公開しています。
https://github.com/oyahiroki/nlp4j-resources/tree/main/wordnet
日本語WordNet
国立研究開発法人情報通信研究機構(NICT)にて作成された日本語の意味辞書として「日本語WordNet」というものがあります。以下URLにて公開されております。
ライセンス
ライセンス原文は以下にて公開されております。
【追記】2022年9月17日現在、本家のサーバーがダウンしているようでライセンスが読めない状態になっているので以下に引用します。
Copyright: 2016-2017 Francis Bond, Takayuki Kuribayashi
Copyright: 2012-2015 Francis Bond
Copyright: 2009-2011 NICT
Japanese WordNet
This software and database is being provided to you, the LICENSEE, by
the National Institute of Information and Communications Technology
under the following license. By obtaining, using and/or copying this
software and database, you agree that you have read, understood, and
will comply with these terms and conditions:
Permission to use, copy, modify and distribute this software and
database and its documentation for any purpose and without fee or
royalty is hereby granted, provided that you agree to comply with
the following copyright notice and statements, including the
disclaimer, and that the same appear on ALL copies of the software,
database and documentation, including modifications that you make
for internal use or for distribution.
Japanese WordNet Copyright 2009-2011 by the National Institute of
Information and Communications Technology (NICT); 2012-2015 by Francis
Bond; 2016-2017 Francis Bond, Takayuki Kuribayashi. All rights reserved.
THIS SOFTWARE AND DATABASE IS PROVIDED "AS IS" AND NICT MAKES NO
REPRESENTATIONS OR WARRANTIES, EXPRESS OR IMPLIED. BY WAY OF EXAMPLE,
BUT NOT LIMITATION, NICT MAKES NO REPRESENTATIONS OR WARRANTIES OF
MERCHANTABILITY OR FITNESS FOR ANY PARTICULAR PURPOSE OR THAT THE USE
OF THE LICENSED SOFTWARE, DATABASE OR DOCUMENTATION WILL NOT INFRINGE
ANY THIRD PARTY PATENTS, COPYRIGHTS, TRADEMARKS OR OTHER RIGHTS.
The name of the National Institute of Information and Communications
Technology may not be used in advertising or publicity pertaining to
distribution of the software and/or database. Title to copyright in
this software, database and any associated documentation shall at all
times remain with National Institute of Information and Communications
Technology and LICENSEE agrees to preserve same.
参考として、以下Google翻訳です。
Copyright:2016-2017 Francis Bond、Takayuki Kuribayashi
著作権:2012-2015フランシスボンド
著作権:2009-2011 NICT
日本語のWordNet
このソフトウェアとデータベースは、ライセンシーであるあなたに提供されています。
情報通信研究機構
次のライセンスの下で。これを取得、使用、および/またはコピーすることにより
ソフトウェアとデータベース、あなたはあなたが読んで、理解して、そして
これらの利用規約を遵守します。
このソフトウェアの使用、コピー、変更、および配布の許可および
データベースとそのドキュメントは、目的を問わず、無料または
あなたが遵守することに同意することを条件として、ロイヤルティはここに付与されます
以下の著作権表示および声明。
免責事項、および同じことがソフトウェアのすべてのコピーに表示されること、
行った変更を含むデータベースとドキュメント
内部使用または配布用。
国立研究所による日本語WordNetCopyright 2009-2011
情報通信技術(NICT); フランシスによる2012-2015
つなぐ; 2016-2017フランシス・ボンド、栗林隆行。全著作権所有。
このソフトウェアとデータベースは「現状有姿」で提供され、NICTは何もしません
明示または黙示を問わず、表明または保証。例として、
ただし、これに限定されるものではなく、NICTはいかなる表明または保証も行いません。
商品性または特定の目的への適合性、またはその使用
ライセンスされたソフトウェア、データベース、またはドキュメントの一部は侵害されません
第三者の特許、著作権、商標、またはその他の権利。
国立情報通信研究所の名前
テクノロジーは、関連する広告や宣伝に使用することはできません。
ソフトウェアおよび/またはデータベースの配布。の著作権のタイトル
このソフトウェア、データベース、および関連するドキュメントは、すべて
時間は国立情報通信研究所に残っています
テクノロジーとライセンシーは同じものを維持することに同意します。
参考として、以下DeepL翻訳です。
著作権:2016-2017 フランシス・ボンド、栗林隆幸
著作権: 2012-2015 フランシス・ボンド
著作権:2009-2011 NICT
日本語ワードネット
本ソフトウェアおよびデータベースは、甲であるあなたに以下の通り提供されます。
独立行政法人情報通信研究機構(NICT
を、以下のライセンスで提供します。 本ソフトウェアおよびデータベースを入手、使用、および複製することにより
本ソフトウェアおよびデータベースを入手、使用、および複製することにより、お客様は、以下の条件を読み、理解し、遵守することに同意したものとみなされます。
本ソフトウェアおよびデータベースを入手、使用、または複製することにより、お客様は本条件を読み、理解し、遵守することに同意したものとみなされます。
本ソフトウェアおよびデータベースとそのドキュメントを、いかなる目的でも使用、複製、変更、配布することを許可する。
本ソフトウェアおよびデータベースとそのドキュメントを、いかなる目的でも無償で使用、複写、変更、配布することを許可します。
本ソフトウェアおよびデータベース、ならびにその文書を、目的を問わず、無償で使用、複写、変更、配布することを許可します。
以下の著作権表示および声明(免責条項を含む)に従うことに同意する場合に限り、いかなる目的であれ、料金や使用料を支払うことなく、本ソフトウェアおよびデータベースとその文書を使用および変更することを許可します。
本ソフトウェアは、以下の著作権表示および免責事項を遵守し、本ソフトウェアのすべてのコピーに同じ表示をすることを条件に、無償で使用することができます。
本ソフトウェアは、以下の著作権表示および免責事項を遵守することに同意するものとします。
を内部使用または配布するために作成した変更を含む、ソフトウェア、データベースおよび文書のすべてのコピーに表示することに同意するものとします。
日本語ワードネット Copyright 2009-2011 by the National Institute of Information and Communications Technology (NICT).
2009-2011 独立行政法人情報通信研究機構(NICT); 2012-2015 by Francis
Bond; 2016-2017 Francis Bond, Takayuki Kuribayashi. すべての著作権を保有します。
本ソフトウェアおよびデータベースは現状有姿のまま提供され、NICTは一切の
本ソフトウェアおよびデータベースは「現状有姿」で提供され、NICTは明示または黙示を問わず、いかなる表明または保証も行いません。 例として。
本ソフトウェアおよびデータベースは、現状有姿で提供され、Nict は明示または黙示を問わず、いかなる表明または保証を行うものではありません。
例えば、Nict は、特定の目的に対する商品性または適合性、あるいはライセンスされたソフトウェア、データベースまたはドキュメンテーションの使用について、いかなる表明または保証も行いません。
許諾されたソフトウェア、データベースまたはドキュメンテーションの使用が、第三者の特許権、著作権またはその他の知的財産権を侵害しないこと。
また、許諾されたソフトウェア、データベースまたは文書の使用が第三者の特許権、著作権、商標権またはその他の権利を侵害しないことを保証するものではありません。
独立行政法人情報通信研究機構の名称を
情報通信研究機構の名称は、本ソフトウェアおよびデータベースの配布に係る広告または宣伝に使用することはできません。
ソフトウェアおよび/またはデータベースの配布に関連する広告または宣伝に、情報通信研究機構の名前を使用してはならない。 本ソフトウェア、データベース、および関連文書の著作権の帰属
本ソフトウェア、データベースおよび関連文書の著作権は、常に独立行政法人情報通信研究機構に帰属します。
本ソフトウェア、データベースおよび関連文書の著作権の所有権は、常に独立行政法人情報通信研究機構に帰属するものとします。
本ソフトウェアおよびデータベース、関連文書の著作権は、常に情報通信研究機構に帰属し、甲はこれを保持することに同意するものとします。
www.DeepL.com/Translator
(無料版)で翻訳しました。
データ形式
いくつかの形式でファイルが公開されておりますが、そのひとつにXMLがあります。
URLは以下です。
Japanese Wordnet as WordNet-LMF (xml)
This gives all the information needed for a functioning WordNet
http://compling.hss.ntu.edu.sg/wnja/data/1.1/jpn_wn_lmf.xml.gz
gz形式で配布されていますので、XMLを直接エディタなどで開いて確認したい場合は以下コマンドで展開します。
$ gzip -d jpn_wn_lmf.xml.gz
元のファイルは11.8 MB (12,415,268 バイト)ですが、
展開すると82.0 MB (86,085,129 バイト)になります。
けっこう大きいですね。
XML詳細
XML ファイルは以下から始まっています。
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE LexicalResource SYSTEM "WN-LMF.dtd">
<LexicalResource>
<GlobalInformation label="Japanese WordNet 1.1 by NICT"/>
<!-- produced on 2010-10-22 -->
<Lexicon languageCoding='ISO 639-3' label='Japanese Wordnet' language='jpn' owner='NICT' version='1.1'>
<LexicalEntry id ='w239520'>
<Lemma writtenForm='夜半' partOfSpeech='n'/>
<Sense id='w239520_15168185-n' synset='jpn-1.1-15168185-n'/>
<Sense id='w239520_15167027-n' synset='jpn-1.1-15167027-n'/>
</LexicalEntry>
...
1つの語は「LexicalEntry」タグで定義されています。
例として見出しが「学校」である「LexicalEntry」タグを見てみます。107404行目です。
<LexicalEntry id ='w195566'>
<Lemma writtenForm='学校' partOfSpeech='n'/>
<Sense id='w195566_08276720-n' synset='jpn-1.1-08276720-n'/>
<Sense id='w195566_15203229-n' synset='jpn-1.1-15203229-n'/>
</LexicalEntry>
「synset='jpn-1.1-15168185-n'」とありますので、IDが「jpn-1.1-08276720-n」である「Synset」タグを見てみます。459710行目です。
<Synset id='jpn-1.1-08276720-n' baseConcept='3'>
<Definition gloss="教育機関。">
<Statement example="その学校は1900年に創立された"/>
</Definition>
<SynsetRelations>
<SynsetRelation targets='jpn-1.1-08287586-n' relType='mmem'/>
<SynsetRelation targets='jpn-1.1-10560352-n' relType='mmem'/>
<SynsetRelation targets='jpn-1.1-08276342-n' relType='hype'/>
<SynsetRelation targets='jpn-1.1-08278589-n' relType='hypo'/>
<SynsetRelation targets='jpn-1.1-08277805-n' relType='hypo'/>
...
「gloss」属性に意味が書いてあり、「example」属性に例文があります。
(いま気づきましたが、例文を含むのを忘れていましたので後で追加します。)
(また、語の上位概念、下位概念なども取得していますが、今回は処理の対象外とします。記事への反響を見て作成します。)
もうひとつのリンクである、IDが「jpn-1.1-15203229-n」である「Synset」タグを見ると以下のようになっています。964863行目です。
<Synset id='jpn-1.1-15203229-n' baseConcept='3'>
<Definition gloss="学校の授業期間。学校で授業が行われる期間。">
<Statement example="授業が終わってからも居残る"/>
<Statement example="彼は1日も学校を休まなかった"/>
<Statement example="学校の授業が終わったら、私たちは一緒に家まで歩いて帰るだろう"/>
</Definition>
<SynsetRelations>
<SynsetRelation targets='jpn-1.1-15113229-n' relType='hype'/>
<SynsetRelation targets='jpn-1.1-15299225-n' relType='mprt'/>
</SynsetRelations>
</Synset>
ここまでで「学校」は「教育機関。」と「学校の授業期間。学校で授業が行われる期間。」の二つの意味を持つことになります。
「教育機関。」としての「学校」は「Synset id='jpn-1.1-15203229-n'」にリンクしています。他の語も同様に同じところにリンクしているものがあります。これが同義語ということです。「Synset id='jpn-1.1-15203229-n'」である語を他にも探してみます。115820行目、279357行目、315281行目にありました。
<LexicalEntry id ='w235619'>
<Lemma writtenForm='学院' partOfSpeech='n'/>
<Sense id='w235619_02669885-n' synset='jpn-1.1-02669885-n'/>
<Sense id='w235619_08276720-n' synset='jpn-1.1-08276720-n'/>
<Sense id='w235619_08277805-n' synset='jpn-1.1-08277805-n'/>
</LexicalEntry>
<LexicalEntry id ='w211181'>
<Lemma writtenForm='スクール' partOfSpeech='n'/>
<Sense id='w211181_08276720-n' synset='jpn-1.1-08276720-n'/>
</LexicalEntry>
<LexicalEntry id ='w174686'>
<Lemma writtenForm='学園' partOfSpeech='n'/>
<Sense id='w174686_02669885-n' synset='jpn-1.1-02669885-n'/>
<Sense id='w174686_08276720-n' synset='jpn-1.1-08276720-n'/>
</LexicalEntry>
ここまでで「学校」の「教育機関。」としての同義語は「学院」「スクール」「学園」であることがわかります。
確かに同じですね。
#JSON
ここまでの情報を基にJSONを作成します。読みやすいように改行を入れています。
{
"id":"w195566",
"item":"学校",
"pos":"n",
"glosses":["教育機関。","学校の授業期間。学校で授業が行われる期間。"],
"synonyms":["学校","学院","スクール","学園","授業","学校","授業時間"]
}
このJSONの作成処理をすべての「LexicalEntry」に対して実行します。
##最初の10行
{"author":"Hiroki Oya","author_url":"https://nlp4j.org","url":"https://github.com/oyahiroki/nlp4j-resources/blob/main/wordnet/jpn_wn_lmf_glosses_json_head100.txt","url_raw":"https://raw.githubusercontent.com/oyahiroki/nlp4j-resources/main/wordnet/jpn_wn_lmf_glosses_json_head100.txt","license_url":"http://compling.hss.ntu.edu.sg/wnja/license.txt","license":"Copyright: 2016-2017 Francis Bond, Takayuki Kuribayashi\nCopyright: 2012-2015 Francis Bond\t \nCopyright: 2009-2011 NICT\n\n\n\nJapanese WordNet\n\nThis software and database is being provided to you, the LICENSEE, by\nthe National Institute of Information and Communications Technology\nunder the following license. By obtaining, using and/or copying this\nsoftware and database, you agree that you have read, understood, and\nwill comply with these terms and conditions:\n \n Permission to use, copy, modify and distribute this software and\n database and its documentation for any purpose and without fee or\n royalty is hereby granted, provided that you agree to comply with\n the following copyright notice and statements, including the\n disclaimer, and that the same appear on ALL copies of the software,\n database and documentation, including modifications that you make\n for internal use or for distribution.\n \nJapanese WordNet Copyright 2009-2011 by the National Institute of\nInformation and Communications Technology (NICT); 2012-2015 by Francis\nBond; 2016-2017 Francis Bond, Takayuki Kuribayashi. All rights reserved.\n \nTHIS SOFTWARE AND DATABASE IS PROVIDED \"AS IS\" AND NICT MAKES NO\nREPRESENTATIONS OR WARRANTIES, EXPRESS OR IMPLIED. BY WAY OF EXAMPLE,\nBUT NOT LIMITATION, NICT MAKES NO REPRESENTATIONS OR WARRANTIES OF\nMERCHANTABILITY OR FITNESS FOR ANY PARTICULAR PURPOSE OR THAT THE USE\nOF THE LICENSED SOFTWARE, DATABASE OR DOCUMENTATION WILL NOT INFRINGE\nANY THIRD PARTY PATENTS, COPYRIGHTS, TRADEMARKS OR OTHER RIGHTS.\n \nThe name of the National Institute of Information and Communications\nTechnology may not be used in advertising or publicity pertaining to\ndistribution of the software and/or database. Title to copyright in\nthis software, database and any associated documentation shall at all\ntimes remain with National Institute of Information and Communications\nTechnology and LICENSEE agrees to preserve same.\n"}
{"id":"w239520","item":"夜半","pos":"n","glosses":["夜の12時。夜中。","外が暗い、日没の後と日の出の前の時間。"],"synonyms":["夜半","夜深","真夜中","夜夜中","半宵","ミッドナイト","半夜","深更","零時","ま夜中","夜中","夜々中","正子","深夜","中夜","十二時","夜半","夜","暮夜","小夜","夜中","晩","ナイト","夜間","夜分"]}
{"id":"w234731","item":"骨膜","pos":"n","glosses":["骨(四肢を除く)の表面を覆お、腱と筋肉をくっつける働きをする高密度な線維膜。囲まれた骨に滋養物を与える神経と血管を含む。"],"synonyms":["骨膜"]}
{"id":"w230510","item":"応じる","pos":"v","glosses":["許容するか、順応する。","望まれるように、好意的に反応する。","何かに反応を示す。","信号に反応する。","委員会などから、公式に(レポート)を受けとる。"],"synonyms":["応じる","受け入れる","受け容れる","受容","受容れる","甘んじる","受入れる","接受","鵜呑み","応ずる","丸呑み","受けいれる","受取る","まる呑み","丸呑","入れる","迎え入れる","応じる","反応","答える","応ずる","応える","応じる","反応","応ずる","応える","応じる","応答","応ずる","応じる","受け入れる","請ける","認める","受入れる","応ずる","受ける"]}
{"id":"w198854","item":"フレグランス","pos":"n","glosses":["はっきりとした快いにおい。"],"synonyms":["フレグランス","芳ばしさ","馨しさ","香気","芳香","異香","馨り","香り","清香","香料","フレーグランス","馨香","薫り","蘭麝","芳しさ","薫香","パフューム","芳芬"]}
{"id":"w246293","item":"職掌","pos":"n","glosses":["ある特定の社会の場である人の正常または一般の行為。"],"synonyms":["職掌","役目","お役","役","役柄","役回り","役儀","役廻","役回","御役","役割り","役割","職務"]}
{"id":"w185688","item":"終始一貫して","pos":"r","glosses":[],"synonyms":["終始一貫して","徹頭徹尾","始めから終わりまで","最初から最後まで"]}
{"id":"w212224","item":"ノースカロライナ","pos":"n","glosses":["米国南東部の州。最初の13の植民地のうちの1つ。","英国植民地の1つで、米国を形成した。"],"synonyms":["ノースカロライナ","ノースカロライナ"]}
{"id":"w210774","item":"メセン","pos":"n","glosses":["アフリカ南部産メセンブリアンテマ属の数種の植物の総称で、華やかなピンクまたは白い花が目的で栽培される。"],"synonyms":["メセン"]}
{"id":"w228592","item":"奥ゆかしげ","pos":"a","glosses":["動き、スタイル、姿、または出来栄えの美しさを特徴とする。"],"synonyms":["奥ゆかしげ","淑やか","麗しい","たわやか","楚楚たる","奥床しい","美妙","婉麗","典麗","寛雅","閑麗","床しい","しなやか","繊麗","端麗","風雅","しとやか","窈窕たる","麗しげ","清淑","婉然たる","流麗","心ゆかしい","エレガンス","優艶","雅","雅やか","閑雅","ゆかしい","優々たる","奥ゆかしい","雅びやか","心床しい","優雅","優優たる","優婉","典雅","楚々たる","格調高雅","嫋やか","優美","雅びた","奥床しげ"]}
最初の1行目はコメントに相当する情報になっています。
公開URL、ライセンスなどを挿入しています。
辞書として利用するときは読み飛ばしてください。
2行目以降は語の定義です。
1行ごとにJSONとして解釈してください。
JSONの公開
以下URLで公開しています。
ファイルサイズが34.3 MB (36,043,418 バイト)と大きいので、ご注意ください。(初期バージョンのサイズです。)
ファイル名は「jpn_wn_lmf_glosses_json.txt」です。
いきなり全行を読むのはテストなどもしづらいので、最初の100行を切り出したファイルを作成してあります。
ファイル名は「jpn_wn_lmf_glosses_json_head100.txt」です。
最初の100行を切り出したJSONファイルの生データへのURLは以下です。クリックするとダウンロードされますのでご注意ください。
以上。