0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

NPCMJ (Kainoki) のデータをダウンロードして tregex で読み込む

Last updated at Posted at 2019-01-29

NPCMJ

NPCMJ (NINJAL Parsed Corpus of Modern Japanese) は国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』が開発している現代日本語のツリーバンクで、現在、約2万文のデータが公開されている。

全データをダウンロードして、ローカルで検索したり、自分で修正して使うこともできる。

http://npcmj.ninjal.ac.jp/interfaces/cgi-bin/index.sh?db=npcmj&lang=jp
("Download all bracketed trees" から)

tregex

ローカルでの検索ツールとして便利なのは tregex。これは Stanford NLP のサイトから入手できる。

https://nlp.stanford.edu/software/tregex.html
(現在の最新バージョンは Version 3.9.2)

zip ファイルを解凍して、stanford-tregex.jar をクリックするとプログラムが立ち上がる(java をインストールするようメッセージが出たら、それに従う)。

メニューの [FILE] --> [Load trees] から NPCMJ のデータを置いたディレクトリを選び、[Load with file filters]、[Okay] でデータを読み込む。

画面中央の [Browse trees] をクリックするとデータが表示される。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?