NPCMJ
NPCMJ (NINJAL Parsed Corpus of Modern Japanese) は国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』が開発している現代日本語のツリーバンクで、現在、約2万文のデータが公開されている。
全データをダウンロードして、ローカルで検索したり、自分で修正して使うこともできる。
http://npcmj.ninjal.ac.jp/interfaces/cgi-bin/index.sh?db=npcmj&lang=jp
("Download all bracketed trees" から)
tregex
ローカルでの検索ツールとして便利なのは tregex。これは Stanford NLP のサイトから入手できる。
https://nlp.stanford.edu/software/tregex.html
(現在の最新バージョンは Version 3.9.2)
zip ファイルを解凍して、stanford-tregex.jar をクリックするとプログラムが立ち上がる(java をインストールするようメッセージが出たら、それに従う)。
メニューの [FILE] --> [Load trees] から NPCMJ のデータを置いたディレクトリを選び、[Load with file filters]、[Okay] でデータを読み込む。
画面中央の [Browse trees] をクリックするとデータが表示される。