More than 5 years have passed since last update.

NPCMJ (Kainoki) のデータをダウンロードして tregex で読み込む

Last updated at 2019-01-30Posted at 2019-01-29

NPCMJ

NPCMJ (NINJAL Parsed Corpus of Modern Japanese) は国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』が開発している現代日本語のツリーバンクで、現在、約2万文のデータが公開されている。

全データをダウンロードして、ローカルで検索したり、自分で修正して使うこともできる。

ローカルでの検索ツールとして便利なのは tregex。これは Stanford NLP のサイトから入手できる。

https://nlp.stanford.edu/software/tregex.html
（現在の最新バージョンは Version 3.9.2）

zip ファイルを解凍して、stanford-tregex.jar をクリックするとプログラムが立ち上がる（java をインストールするようメッセージが出たら、それに従う）。

メニューの [FILE] --> [Load trees] から NPCMJ のデータを置いたディレクトリを選び、[Load with file filters]、[Okay] でデータを読み込む。

画面中央の [Browse trees] をクリックするとデータが表示される。