Why not login to Qiita and try out its useful features?

We'll deliver articles that match you.

You can read useful information later.

0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

NPCMJ (Kainoki) のデータをダウンロードして tregex で読み込む

Last updated at Posted at 2019-01-29

NPCMJ

NPCMJ (NINJAL Parsed Corpus of Modern Japanese) は国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』が開発している現代日本語のツリーバンクで、現在、約2万文のデータが公開されている。

全データをダウンロードして、ローカルで検索したり、自分で修正して使うこともできる。

http://npcmj.ninjal.ac.jp/interfaces/cgi-bin/index.sh?db=npcmj&lang=jp
("Download all bracketed trees" から)

tregex

ローカルでの検索ツールとして便利なのは tregex。これは Stanford NLP のサイトから入手できる。

https://nlp.stanford.edu/software/tregex.html
(現在の最新バージョンは Version 3.9.2)

zip ファイルを解凍して、stanford-tregex.jar をクリックするとプログラムが立ち上がる(java をインストールするようメッセージが出たら、それに従う)。

メニューの [FILE] --> [Load trees] から NPCMJ のデータを置いたディレクトリを選び、[Load with file filters]、[Okay] でデータを読み込む。

画面中央の [Browse trees] をクリックするとデータが表示される。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up

Qiita Advent Calendar is held!

Qiita Advent Calendar is an article posting event where you post articles by filling a calendar 🎅

Some calendars come with gifts and some gifts are drawn from all calendars 👀

Please tie the article to your calendar and let's enjoy Christmas together!

0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?