More than 5 years have passed since last update.

文字列から主要キーワードを抽出するおもちゃ

Last updated at 2015-01-20Posted at 2013-12-28

2015/01/20

入社まだ１年もたっていませんが、もうむりかもしれない・・・。
という思いを込めて、久々に少しだけロジックを変更しました。

無駄なところを省いて、いくつか処理を追加したので精度がちょっとまともになったきがしなくもないです。

2014/07/07

自宅サーバを立てました。
新入社員なのであまりサーバに関しては何もできていませんが、結構いい感じに仕上がってきています。
（平日は火事とか怖いので死んでます）

2014/02/27

また懲りずに内部の処理を変えました。
なんとなく理想に近づいたと思う。

あとはrelate_noise_levelの部分を自動で推定できるようにできればいい感じになれる！
（このためにSSDx2でraid0の自宅サーバを組みます。）

2014/02/21

仕組みを少し変更して手直ししました。
でも気に入らない、、、

解析結果の出力数が多い！
何とかします。

2014/02/16

仕組みを変更したら失敗しましたｗ
精度がガックリと落ちたので、作り直します。

学校から解放され次第色々挑戦します。

概要

記載された文字列が何について説明をしているのかを特定するためのツールを作りました。

categoryabstraction

ツイッターの投稿でもブログの切れ端でも、何でも突っ込んでみてください。
mecabで名詞だけ取り出した結果よりはいい結果が出ると思います。

もし反応が良ければAPIとして公開してみようかな・・・

利用したもの

利用したものとしては以下があります（他にも色々ありますが、おおまかに列挙します）

wikipedia (dunmp data)
mecab
termextract
mysql
mroonga

この他、利用するモノの下準備としてmecabの辞書構築や、wikipediaのデータ整形などがあります。

実行例

実行結果はWikipediaのデータベースなどを更新すると変化することが有ります。

サンプルテキスト

インターネットの普及に伴い，ユーザが取得可能な情報が溢れるようになった．
これに対して，ユーザの嗜好情報に応じて適切な情報を提供する情報推薦手法が注目されている．
しかし，従来の情報推薦手法におけるユーザの嗜好情報の推定や，情報推薦の対象はまだ限定的である．
もし普段のユーザのウェブ検索行動からそのユーザの嗜好情報を推定することが出来れば，ユーザの嗜好情報に沿った精度の高い情報推薦が可能であると考えられる．
そこで我々は，ユーザの普段のウェブ検索の行動であるマウスの動きを解析することで，高度なユーザの嗜好情報を得られる手法を開発した．

解析結果

特徴語	カテゴリ	重要度
ユーザ	アルゴリズム	3.170
ユーザ	集合知	3.170
嗜好情報	アルゴリズム	3.019
嗜好情報	集合知	3.019
情報推薦	アルゴリズム	2.952
情報推薦	集合知	2.952
ウェブ検索	Googleのサービス	1.985
ウェブ検索	検索エンジン	1.985
行動	心理学	1.897
ウェブ検索行動	検索エンジン	1.371
インターネット	インターネットの歴史	1.000
対象	ESRB	1.000
推定	統計学	1.000

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up