LoginSignup
4
4

More than 1 year has passed since last update.

オープンソースで作ったテキストマイニングシステムのご紹介 (NLP4J)

Last updated at Posted at 2021-02-02

NLP4J Index

概要

NLP4J は、自然言語処理技術を用いた分析のためのフレームワークです。
「データの収集」「形態素解析や構文解析といったアノテーターの利用」「分析アプリケーション」
を容易に利用するための仕組みです.

image.png

テキスト分析システム

Googleをはじめとした検索システムは皆様なじみがあると思うのですが、
テキスト分析システムはなかなか見かけないと思います。

そこで私が日曜大工のオープンソースで開発し、
一般公開しているサイトがありますのでご紹介したいと思います。

#0.データ

NLP4J Analytics 国土交通省不具合情報分析
https://nlp4j.azurewebsites.net/search.jsp
です。(今後データを追加変更する可能性があります。)

元データは日本の国土交通省が公開している「不具合情報検索」から取得したデータを使っています。
http://carinf.mlit.go.jp/jidosha/carinf/opn/index.html
約3年分のデータを取り込んであります。

使い方はシンプルです。

#1.検索
検索窓に「ニッサン」と入力してボタンを押すと、日産自動車の不具合情報が表示されます。(※特定の会社の故障情報の件数を強調したいわけではありません)

image.png

ここまでは「検索」と同じで、国土交通省のサイトで提供されている検索機能と同じです。

#2.時系列分析

同じ画面に「時系列」タブがあるのでここをクリックすると
全体の件数推移と、検索条件での件数推移の両方が表示されます。
ここで「全体との比較」ができることが分析につながります。
image.png

たとえば「ニッサン ルークス」で検索すると、全体と比較して2020年3月からやや件数が増えていることがうかがえます。

image.png

3.キーワード分析

また「キーワード」のタブをクリックすると、
自然言語処理を使って抽出した各種キーワードが表示されます。
これを書いている時点では「名詞」「動詞」「ブランド」「車種名」「装置名」でキーワードが表示されます。
「名詞」「動詞」は報告文から抽出したものですので、本家の国土交通省サイトで見ることはできません。
また、「ブランド」「車種名」「装置名」についても件数のカウントは本家の国土交通省サイトでは見ることができません。
さらに「名詞」「動詞」については「全体と比較して現在の検索条件では多いキーワード」が強調表示されています。

image.png

以上、テキストマイニングが少しわかる例をご紹介しました。

大矢裕己

まとめ

NLP4J を使うと、Javaで簡単に自然言語処理ができます

#プロジェクトURL
https://www.nlp4j.org/
NLP4J_N_128.png


NLP4J Index

4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4