2015/01/20
入社まだ1年もたっていませんが、もうむりかもしれない・・・。
という思いを込めて、久々に少しだけロジックを変更しました。
無駄なところを省いて、いくつか処理を追加したので精度がちょっとまともになったきがしなくもないです。
2014/07/07
自宅サーバを立てました。
新入社員なのであまりサーバに関しては何もできていませんが、結構いい感じに仕上がってきています。
(平日は火事とか怖いので死んでます)
2014/02/27
また懲りずに内部の処理を変えました。
なんとなく理想に近づいたと思う。
あとはrelate_noise_levelの部分を自動で推定できるようにできればいい感じになれる!
(このためにSSDx2でraid0の自宅サーバを組みます。)
2014/02/21
仕組みを少し変更して手直ししました。
でも気に入らない、、、
解析結果の出力数が多い!
何とかします。
2014/02/16
仕組みを変更したら失敗しましたw
精度がガックリと落ちたので、作り直します。
学校から解放され次第色々挑戦します。
概要
記載された文字列が何について説明をしているのかを特定するためのツールを作りました。
ツイッターの投稿でもブログの切れ端でも、何でも突っ込んでみてください。
mecabで名詞だけ取り出した結果よりはいい結果が出ると思います。
もし反応が良ければAPIとして公開してみようかな・・・
利用したもの
利用したものとしては以下があります(他にも色々ありますが、おおまかに列挙します)
- wikipedia (dunmp data)
- mecab
- termextract
- mysql
- mroonga
この他、利用するモノの下準備としてmecabの辞書構築や、wikipediaのデータ整形などがあります。
実行例
実行結果はWikipediaのデータベースなどを更新すると変化することが有ります。
サンプルテキスト
インターネットの普及に伴い,ユーザが取得可能な情報が溢れるようになった.
これに対して,ユーザの嗜好情報に応じて適切な情報を提供する情報推薦手法が注目されている.
しかし,従来の情報推薦手法におけるユーザの嗜好情報の推定や,情報推薦の対象はまだ限定的である.
もし普段のユーザのウェブ検索行動からそのユーザの嗜好情報を推定することが出来れば,ユーザの嗜好情報に沿った精度の高い情報推薦が可能であると考えられる.
そこで我々は,ユーザの普段のウェブ検索の行動であるマウスの動きを解析することで,高度なユーザの嗜好情報を得られる手法を開発した.
解析結果
特徴語 | カテゴリ | 重要度 |
---|---|---|
ユーザ | アルゴリズム | 3.170 |
ユーザ | 集合知 | 3.170 |
嗜好情報 | アルゴリズム | 3.019 |
嗜好情報 | 集合知 | 3.019 |
情報推薦 | アルゴリズム | 2.952 |
情報推薦 | 集合知 | 2.952 |
ウェブ検索 | Googleのサービス | 1.985 |
ウェブ検索 | 検索エンジン | 1.985 |
行動 | 心理学 | 1.897 |
ウェブ検索行動 | 検索エンジン | 1.371 |
インターネット | インターネットの歴史 | 1.000 |
対象 | ESRB | 1.000 |
推定 | 統計学 | 1.000 |