概要
NLP4J は、自然言語処理技術を用いた分析のためのフレームワークです。
「データの収集」「形態素解析や構文解析といったアノテーターの利用」「分析アプリケーション」
を容易に利用するための仕組みです.
テキスト分析システム
Googleをはじめとした検索システムは皆様なじみがあると思うのですが、
テキスト分析システムはなかなか見かけないと思います。
そこで私が日曜大工のオープンソースで開発し、
一般公開しているサイトがありますのでご紹介したいと思います。
#0.データ
NLP4J Analytics 国土交通省不具合情報分析
https://nlp4j.azurewebsites.net/search.jsp
です。(今後データを追加変更する可能性があります。)
元データは日本の国土交通省が公開している「不具合情報検索」から取得したデータを使っています。
http://carinf.mlit.go.jp/jidosha/carinf/opn/index.html
約3年分のデータを取り込んであります。
使い方はシンプルです。
#1.検索
検索窓に「ニッサン」と入力してボタンを押すと、日産自動車の不具合情報が表示されます。(※特定の会社の故障情報の件数を強調したいわけではありません)
ここまでは「検索」と同じで、国土交通省のサイトで提供されている検索機能と同じです。
#2.時系列分析
同じ画面に「時系列」タブがあるのでここをクリックすると
全体の件数推移と、検索条件での件数推移の両方が表示されます。
ここで「全体との比較」ができることが分析につながります。
たとえば「ニッサン ルークス」で検索すると、全体と比較して2020年3月からやや件数が増えていることがうかがえます。
3.キーワード分析
また「キーワード」のタブをクリックすると、
自然言語処理を使って抽出した各種キーワードが表示されます。
これを書いている時点では「名詞」「動詞」「ブランド」「車種名」「装置名」でキーワードが表示されます。
「名詞」「動詞」は報告文から抽出したものですので、本家の国土交通省サイトで見ることはできません。
また、「ブランド」「車種名」「装置名」についても件数のカウントは本家の国土交通省サイトでは見ることができません。
さらに「名詞」「動詞」については「全体と比較して現在の検索条件では多いキーワード」が強調表示されています。
以上、テキストマイニングが少しわかる例をご紹介しました。
大矢裕己
まとめ
NLP4J を使うと、Javaで簡単に自然言語処理ができます
#プロジェクトURL
https://www.nlp4j.org/