NLP4J™ はテキストマイニングや自然言語処理に必要な以下の機能を提供するJavaライブラリです。
- データ収集機能 (クローラー Crawler)
- 自然言語処理呼び出し機能 (アノテーター Annotator)
- 形態素解析
- 構文解析
- 辞書
- 構文マッチ機能
- 統計インデックス作成機能 (インデクサー Indexer)
Crawler, Annotator, Indexer の三本立てという基本的な概念と構造は、日本で最も大規模に使われているエンタープライズテキストマイニングソフトウェアである IBM Watson Explorer (旧TAKMI, IBM Content Analytics)と似たものになっています。
NLP4J では基本的な機能から提供を始めて日曜大工的に時間をかけて提供していくつもりです。
公開済記事
データの読み込み
Wikipedia, Wiktionary のダンプからページを取り出す (Java)
形態素解析
NLP4Jは各種の形態素解析器をWrapしており、統一的に利用できます。
NLP4J - Java で 形態素解析(Yahoo! デベロッパーネットワーク 日本語形態素解析を利用)
NLP4J - Java で 形態素解析(kuromojiを利用)
[NLP4J - Java で形態素解析(Mecabを利用)]
(https://qiita.com/oyahiroki/items/fc1d19d9518710866c1e)
NLP4J - Java で 英語の形態素解析(Stanford NLPを利用)
構文解析
NLP4Jは各種の構文解析器をWrapしており、統一的に利用できます。
NLP4J - Javaで Yahoo! デベロッパーネットワーク 日本語係り受け解析(V1)を利用して日本語の構文解析をしてみる
[NLP4J - Java で構文解析(Cabochaを利用)]
(https://qiita.com/oyahiroki/items/b6e68e1f4e3925dc6d6a)
[NLP4J - Java で 英語の構文解析(Stanford NLPを利用)]
(https://qiita.com/oyahiroki/items/958d9f7aff85c7086ddc)
NLP4J - 構文解析した結果からキーワードを抽出する
統計処理
NLP4J [003] Javaで自然言語処理と品詞の統計処理を使ってテキスト分析をしてみる
NLP4J [004] Javaで自然言語処理と構文解析の統計処理を使ってテキスト分析をしてみる
NLP4J [005-1] Twitter4J と NLP4J でTwitter分析をしてみる(データ収集)
NLP4J [005-2] NLP4J+Twitter4J(分析1)
NLP4J [006-030] NLP4J で言語処理100本ノック #30 形態素解析結果の読み込み
NLP4J [006-031] NLP4J で言語処理100本ノック #31 動詞
NLP4J [006-032] NLP4J で言語処理100本ノック #32 動詞の原形
NLP4J [006-033] NLP4J で言語処理100本ノック #33 サ変名詞
NLP4J [006-034] NLP4J で言語処理100本ノック #34 「AのB」
NLP4J [006-034b] NLP4J で言語処理100本ノック #34 「AのB」の Annotator を作ってみる
NLP4J [007] で Kuromoji を利用する Annotator を作成する
NLP4J [006-034c] NLP4J で言語処理100本ノック #34 「AのB」をさらにスマートに解いてみる(完結編)
オープンソースで作ったテキストマイニングシステムのご紹介 (NLP4J)
公開するかもしれない内容
形態素解析済みの文書を保存する
Word2Vec を使ってみる
国土交通省の「リコール・不具合情報」をきれいなフォーマットでダウンロードする
http://carinf.mlit.go.jp/jidosha/carinf/opn/index.html
絵文字連想をしてみる
NLP4J で COTOHA API を利用する
https://api.ce-cotoha.com/home
https://api.ce-cotoha.com/contents/reference.html
NLP4J [005-3] NLP4J+Twitter4J(データ変換)
NLP4J [00N] Javaで形態素解析と構文解析を使って何をするか
NLP4J [00N] Keywordクラスについて説明
NLP4J [00N] Javadoc
NLP4J [00N] Twitter4J と NLP4J でTwitter分析をしてみる
NLP4J [00N] Azure と NLP4J でテキスト分析システムを作ってみる
NLP4J [00N] Solr と NLP4J でテキスト分析システムを作ってみる
否定形の話
自然言語ソリューション事例の話
完璧な辞書は存在しない
日本でもっとも多く使われている日本語形態素解析エンジンは?
Yahoo!デベロッパーネットワーク テキスト解析:日本語形態素解析 について
企業向け辞書の階層の作り方
ドメイン取得
NLP4J [-001]ドメイン名 nlp4j.org の取得
ドメイン取得した結果
→ Maven repository にもドメイン名を group id に設定できるのでかっこいい.
Maven Central Repository
NLP4J [-002] Maven Central Repository への登録
Create your JIRA account & Issue
GPG
鍵生成→公開鍵を鍵サーバへ登録
登録した結果
(やり方はいくつかあるらしい&ちょくちょく変わるらしい)
登録商標
「NLP4J」を登録商標にしてみた.
結果
文献固定アドレス用結果一覧|J-PlatPat [JPP]
https://www.j-platpat.inpit.go.jp/c1800/TR/JP-2021-117961/8F6ADFC4ECE6A6A05815FC5DF6765FD2ED0066BBEFF0365670B52BD706446BC7/40/ja
NLP4J プロジェクトURL
TOOLS
Preloaders.net - Loading GIF, SVG & APNG (AJAX loaders) generator
https://icons8.com/preloaders/
Open-source tool that uses simple textual descriptions to draw beautiful UML diagrams.
https://plantuml.com/
Home - Microsoft Azure
https://portal.azure.com/#home