Indexに戻る : [005-1] NLP4J+Twitter4J(データ収集) > this > 次のページ
#結果を眺めてみる
出力結果全文はこちらに配置しております。
さて、結果を見ていきましょう...。
#処理時間
処理時間[ms]:34586
34秒かかっています。結構遅いです。
合計90件の文書ですが、1文書につき2回YahooのAPIをコールしていて合計180回なのでこんなものだと思います。Yahooの自然言語処理APIはお手軽に使えるものの、回数制限とパフォーマンスを考慮するとローカルでガンガン叩けるライブラリを使うことも検討が必要だと思います。
NLP4Jでは他の自然言語処理ライブラリをWrapする機能を提供しているので後程実装してきたいと思います。[いつ?]
#名詞の頻度順
count=117,facet=名詞,lex=co
count=117,facet=名詞,lex=https
count=76,facet=名詞,lex=2019
count=50,facet=名詞,lex=TMS
count=40,facet=名詞,lex=東京モーターショー
count=30,facet=名詞,lex=日産
count=30,facet=名詞,lex=RT
count=29,facet=名詞,lex=2
count=28,facet=名詞,lex=HondaTMS
count=25,facet=名詞,lex=1
count=24,facet=名詞,lex=3
count=24,facet=名詞,lex=4
count=22,facet=名詞,lex=6
count=22,facet=名詞,lex=TOYOTA
count=21,facet=名詞,lex=ブース
count=20,facet=名詞,lex=5
count=19,facet=名詞,lex=こちら
count=18,facet=名詞,lex=Honda
count=18,facet=名詞,lex=8
count=16,facet=名詞,lex=トヨタ
count=15,facet=名詞,lex=10
count=14,facet=名詞,lex=選手
count=14,facet=名詞,lex=未来
count=14,facet=名詞,lex=ご覧
count=12,facet=名詞,lex=9
count=12,facet=名詞,lex=体験
count=12,facet=名詞,lex=NissanTMS
count=11,facet=名詞,lex=ぜひ
count=10,facet=名詞,lex=会場
count=10,facet=名詞,lex=フィット
count=10,facet=名詞,lex=お待ち
count=10,facet=名詞,lex=PR
東京モーターショーが開催中ということで、「TMS」「東京モーターショー」「未来」などが上位に入っています。
で、「co」「http」が最上位ということで、目障りですね。。
どうやらヤフーの自然言語処理APIは「URL」を別扱いしてくれないようです。
また「2019」のような数字も目立ちます。ヤフーの自然言語処理APIは「数詞」を返さない仕様のようです。
#ヤフーの形態素解析を確認する
URLと数詞に対してどのような結果を返すのか、見てみましょう。
// 自然文のテキスト
String text = "http://www.yahoo.co.jp/ です。100円拾いました。";
// 日本語形態素解析
YJpMaService service = new YJpMaService();
// 形態素解析の結果を取得する
ArrayList<Keyword> kwds = service.getKeywords(text);
// すべてのキーワードを出力する
for (Keyword kwd : kwds) {
System.out.println(kwd);
}
http [sequence=1, facet=名詞, lex=http, str=http, reading=http, count=-1, begin=0, end=4, correlation=0.0]
: [sequence=2, facet=特殊, lex=:, str=:, reading=:, count=-1, begin=4, end=5, correlation=0.0]
/ [sequence=3, facet=特殊, lex=/, str=/, reading=/, count=-1, begin=5, end=6, correlation=0.0]
/ [sequence=4, facet=特殊, lex=/, str=/, reading=/, count=-1, begin=5, end=6, correlation=0.0]
www [sequence=5, facet=名詞, lex=www, str=www, reading=www, count=-1, begin=7, end=10, correlation=0.0]
. [sequence=6, facet=特殊, lex=., str=., reading=., count=-1, begin=10, end=11, correlation=0.0]
yahoo [sequence=7, facet=名詞, lex=yahoo, str=yahoo, reading=yahoo, count=-1, begin=11, end=16, correlation=0.0]
. [sequence=8, facet=特殊, lex=., str=., reading=., count=-1, begin=16, end=17, correlation=0.0]
co [sequence=9, facet=名詞, lex=co, str=co, reading=co, count=-1, begin=17, end=19, correlation=0.0]
. [sequence=10, facet=特殊, lex=., str=., reading=., count=-1, begin=19, end=20, correlation=0.0]
jp [sequence=11, facet=名詞, lex=jp, str=jp, reading=jp, count=-1, begin=20, end=22, correlation=0.0]
/ [sequence=12, facet=特殊, lex=/, str=/, reading=/, count=-1, begin=22, end=23, correlation=0.0]
[sequence=13, facet=特殊, lex= , str= , reading= , count=-1, begin=23, end=24, correlation=0.0]
です [sequence=14, facet=助動詞, lex=です, str=です, reading=です, count=-1, begin=24, end=26, correlation=0.0]
。 [sequence=15, facet=特殊, lex=。, str=。, reading=。, count=-1, begin=26, end=27, correlation=0.0]
100 [sequence=16, facet=名詞, lex=100, str=100, reading=100, count=-1, begin=27, end=30, correlation=0.0]
円 [sequence=17, facet=接尾辞, lex=円, str=円, reading=えん, count=-1, begin=30, end=31, correlation=0.0]
拾う [sequence=18, facet=動詞, lex=拾う, str=拾い, reading=ひろい, count=-1, begin=31, end=33, correlation=0.0]
ます [sequence=19, facet=助動詞, lex=ます, str=まし, reading=まし, count=-1, begin=33, end=35, correlation=0.0]
た [sequence=20, facet=助動詞, lex=た, str=た, reading=た, count=-1, begin=35, end=36, correlation=0.0]
。 [sequence=21, facet=特殊, lex=。, str=。, reading=。, count=-1, begin=36, end=37, correlation=0.0]
...これはちょっと困りましたね。
URLや数詞が「名詞」として判定されているので、これはちょっと修正したいところです。NLP4Jでは形態素解析の結果に対して加工する仕組みも用意していますので次回以降に対応してみたいと思います。
Indexに戻る : [005-1] NLP4J+Twitter4J(データ収集) > this > 次のページ