Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
Help us understand the problem. What is going on with this article?

NLP4J [005-2] NLP4J+Twitter4J(分析1)

More than 1 year has passed since last update.

Indexに戻る : [005-1] NLP4J+Twitter4J(データ収集) > this > 次のページ

結果を眺めてみる

出力結果全文はこちらに配置しております。

さて、結果を見ていきましょう...。

処理時間

処理時間[ms]:34586

34秒かかっています。結構遅いです。
合計90件の文書ですが、1文書につき2回YahooのAPIをコールしていて合計180回なのでこんなものだと思います。Yahooの自然言語処理APIはお手軽に使えるものの、回数制限とパフォーマンスを考慮するとローカルでガンガン叩けるライブラリを使うことも検討が必要だと思います。

NLP4Jでは他の自然言語処理ライブラリをWrapする機能を提供しているので後程実装してきたいと思います。[いつ?]

名詞の頻度順

count=117,facet=名詞,lex=co
count=117,facet=名詞,lex=https
count=76,facet=名詞,lex=2019
count=50,facet=名詞,lex=TMS
count=40,facet=名詞,lex=東京モーターショー
count=30,facet=名詞,lex=日産
count=30,facet=名詞,lex=RT
count=29,facet=名詞,lex=2
count=28,facet=名詞,lex=HondaTMS
count=25,facet=名詞,lex=1
count=24,facet=名詞,lex=3
count=24,facet=名詞,lex=4
count=22,facet=名詞,lex=6
count=22,facet=名詞,lex=TOYOTA
count=21,facet=名詞,lex=ブース
count=20,facet=名詞,lex=5
count=19,facet=名詞,lex=こちら
count=18,facet=名詞,lex=Honda
count=18,facet=名詞,lex=8
count=16,facet=名詞,lex=トヨタ
count=15,facet=名詞,lex=10
count=14,facet=名詞,lex=選手
count=14,facet=名詞,lex=未来
count=14,facet=名詞,lex=ご覧
count=12,facet=名詞,lex=9
count=12,facet=名詞,lex=体験
count=12,facet=名詞,lex=NissanTMS
count=11,facet=名詞,lex=ぜひ
count=10,facet=名詞,lex=会場
count=10,facet=名詞,lex=フィット
count=10,facet=名詞,lex=お待ち
count=10,facet=名詞,lex=PR

東京モーターショーが開催中ということで、「TMS」「東京モーターショー」「未来」などが上位に入っています。

で、「co」「http」が最上位ということで、目障りですね。。
どうやらヤフーの自然言語処理APIは「URL」を別扱いしてくれないようです。
また「2019」のような数字も目立ちます。ヤフーの自然言語処理APIは「数詞」を返さない仕様のようです。

ヤフーの形態素解析を確認する

URLと数詞に対してどのような結果を返すのか、見てみましょう。

// 自然文のテキスト
String text = "http://www.yahoo.co.jp/ です。100円拾いました。";
// 日本語形態素解析
YJpMaService service = new YJpMaService();
// 形態素解析の結果を取得する
ArrayList<Keyword> kwds = service.getKeywords(text);
// すべてのキーワードを出力する
for (Keyword kwd : kwds) {
    System.out.println(kwd);
}

http [sequence=1, facet=名詞, lex=http, str=http, reading=http, count=-1, begin=0, end=4, correlation=0.0]
: [sequence=2, facet=特殊, lex=:, str=:, reading=:, count=-1, begin=4, end=5, correlation=0.0]
/ [sequence=3, facet=特殊, lex=/, str=/, reading=/, count=-1, begin=5, end=6, correlation=0.0]
/ [sequence=4, facet=特殊, lex=/, str=/, reading=/, count=-1, begin=5, end=6, correlation=0.0]
www [sequence=5, facet=名詞, lex=www, str=www, reading=www, count=-1, begin=7, end=10, correlation=0.0]
. [sequence=6, facet=特殊, lex=., str=., reading=., count=-1, begin=10, end=11, correlation=0.0]
yahoo [sequence=7, facet=名詞, lex=yahoo, str=yahoo, reading=yahoo, count=-1, begin=11, end=16, correlation=0.0]
. [sequence=8, facet=特殊, lex=., str=., reading=., count=-1, begin=16, end=17, correlation=0.0]
co [sequence=9, facet=名詞, lex=co, str=co, reading=co, count=-1, begin=17, end=19, correlation=0.0]
. [sequence=10, facet=特殊, lex=., str=., reading=., count=-1, begin=19, end=20, correlation=0.0]
jp [sequence=11, facet=名詞, lex=jp, str=jp, reading=jp, count=-1, begin=20, end=22, correlation=0.0]
/ [sequence=12, facet=特殊, lex=/, str=/, reading=/, count=-1, begin=22, end=23, correlation=0.0]
  [sequence=13, facet=特殊, lex= , str= , reading= , count=-1, begin=23, end=24, correlation=0.0]
です [sequence=14, facet=助動詞, lex=です, str=です, reading=です, count=-1, begin=24, end=26, correlation=0.0]
。 [sequence=15, facet=特殊, lex=。, str=。, reading=。, count=-1, begin=26, end=27, correlation=0.0]
100 [sequence=16, facet=名詞, lex=100, str=100, reading=100, count=-1, begin=27, end=30, correlation=0.0]
円 [sequence=17, facet=接尾辞, lex=円, str=円, reading=えん, count=-1, begin=30, end=31, correlation=0.0]
拾う [sequence=18, facet=動詞, lex=拾う, str=拾い, reading=ひろい, count=-1, begin=31, end=33, correlation=0.0]
ます [sequence=19, facet=助動詞, lex=ます, str=まし, reading=まし, count=-1, begin=33, end=35, correlation=0.0]
た [sequence=20, facet=助動詞, lex=た, str=た, reading=た, count=-1, begin=35, end=36, correlation=0.0]
。 [sequence=21, facet=特殊, lex=。, str=。, reading=。, count=-1, begin=36, end=37, correlation=0.0]

...これはちょっと困りましたね。
URLや数詞が「名詞」として判定されているので、これはちょっと修正したいところです。NLP4Jでは形態素解析の結果に対して加工する仕組みも用意していますので次回以降に対応してみたいと思います。

Indexに戻る : [005-1] NLP4J+Twitter4J(データ収集) > this > 次のページ

oyahiroki
Hiroki Oya <oyahiroki> 自然言語処理技術者 NLP Engineer (2001-2018) IBMで自然言語処理ソリューションの開発 (IBM Watson) (2018-現在) 日産自動車で自然言語処理ソリューションの開発 --- #NLP4J #自然言語処理
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away