LoginSignup
6
6

More than 5 years have passed since last update.

文字列から主要キーワードを抽出するおもちゃ

Last updated at Posted at 2013-12-28

2015/01/20

入社まだ1年もたっていませんが、もうむりかもしれない・・・。
という思いを込めて、久々に少しだけロジックを変更しました。

無駄なところを省いて、いくつか処理を追加したので精度がちょっとまともになったきがしなくもないです。


2014/07/07

自宅サーバを立てました。
新入社員なのであまりサーバに関しては何もできていませんが、結構いい感じに仕上がってきています。
(平日は火事とか怖いので死んでます)


2014/02/27

また懲りずに内部の処理を変えました。
なんとなく理想に近づいたと思う。

あとはrelate_noise_levelの部分を自動で推定できるようにできればいい感じになれる!
(このためにSSDx2でraid0の自宅サーバを組みます。)


2014/02/21

仕組みを少し変更して手直ししました。
でも気に入らない、、、

解析結果の出力数が多い!
何とかします。


2014/02/16

仕組みを変更したら失敗しましたw
精度がガックリと落ちたので、作り直します。

学校から解放され次第色々挑戦します。


概要

記載された文字列が何について説明をしているのかを特定するためのツールを作りました。

categoryabstraction

ツイッターの投稿でもブログの切れ端でも、何でも突っ込んでみてください。
mecabで名詞だけ取り出した結果よりはいい結果が出ると思います。

もし反応が良ければAPIとして公開してみようかな・・・

利用したもの

利用したものとしては以下があります(他にも色々ありますが、おおまかに列挙します)

  • wikipedia (dunmp data)
  • mecab
  • termextract
  • mysql
  • mroonga

この他、利用するモノの下準備としてmecabの辞書構築や、wikipediaのデータ整形などがあります。

実行例

実行結果はWikipediaのデータベースなどを更新すると変化することが有ります。

サンプルテキスト

インターネットの普及に伴い,ユーザが取得可能な情報が溢れるようになった.
これに対して,ユーザの嗜好情報に応じて適切な情報を提供する情報推薦手法が注目されている.
しかし,従来の情報推薦手法におけるユーザの嗜好情報の推定や,情報推薦の対象はまだ限定的である.
もし普段のユーザのウェブ検索行動からそのユーザの嗜好情報を推定することが出来れば,ユーザの嗜好情報に沿った精度の高い情報推薦が可能であると考えられる.
そこで我々は,ユーザの普段のウェブ検索の行動であるマウスの動きを解析することで,高度なユーザの嗜好情報を得られる手法を開発した.

解析結果

特徴語 カテゴリ 重要度
ユーザ アルゴリズム 3.170
ユーザ 集合知 3.170
嗜好情報 アルゴリズム 3.019
嗜好情報 集合知 3.019
情報推薦 アルゴリズム 2.952
情報推薦 集合知 2.952
ウェブ検索 Googleのサービス 1.985
ウェブ検索 検索エンジン 1.985
行動 心理学 1.897
ウェブ検索行動 検索エンジン 1.371
インターネット インターネットの歴史 1.000
対象 ESRB 1.000
推定 統計学 1.000
6
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
6