どうも、最近は自動的に収集される情報だけで過多になってきているokappyです。
ここで言うところの自動的に収集される情報ってのは、facebook,twitter,各種ニュースアプリ,RSSなどで収集しているWebコンテンツのことを指してます。
情報が多いので、SNSを見るのを制限したり、ニュースアプリで満足したふりをしてみたり、RSSを完全放置して、未読件数がギネス級になったりしている方も少なくないのではないでしょうか?
でも、どうせ情報収集するならWeb上に公開された瞬間に、その後注目されそうな記事だけを効率良く収集したい!!
ってことで、RSSで取得した記事をリアルタイムに解析して、その記事がされるだろういいね!数を予測してみようという取り組みをしてみました。
で、いいね!数の予測が多い記事だけを見れば、最新であり効率も良いというわけです。
では、実際に小規模実験をしてみた流れを具体的に説明します。
##1. mecabを準備
http://qiita.com/ysk_1031/items/7f0cfb7e9e4c4b9129c9
##2. 「THE BRIDGE」の記事をrssで取得する
今回は過去2418件のTHE BRIDGEの記事を使って実験してみました。
以下のようなデータを準備します。
title | url | like_count |
---|---|---|
世界累計1,200 万人が使うダイエットアプリ「Noom コーチ」が大幅リニューアル、Appleの新ヘルスケアアプリケーションと連携 | http://thebridge.jp/2014/09/noom-update-201409 | 211 |
追記あり】前ハフィントンポスト日本版編集長の松浦氏、スマートニュースへ | http://thebridge.jp/2014/09/former-editor-in-chief-shigeki-matsuura-joins-smart-news | 773 |
本日限り、予約なしで新スマホが手に入る特別会場までUberが無料送迎 | http://thebridge.jp/2014/09/uber-gets-you-new-iphone | 22 |
Y-Combinator卒業生が語る「プロダクトや時代に合った最適なグロース」とは? | http://thebridge.jp/2014/09/traction-ceo-kenzi-wang-shared-his-growth-hack-ideas | 35 |
新しいビジネスモデルとなるか。手数料を定額制にしたクラウドファンディングサイトの「Funderbult」 | http://thebridge.jp/2014/09/funderbuilt-pickupnews | 17 |
… | … | … |
##3. 過去の記事の記事といいね!数を解析する
今回は、記事に含まれる単語をmecabで抽出して、その記事のいいね!数に応じてその単語にポイントを付与し、単語ごとに出現数とポイントをデータベース化して教師データとしました。
単語 | ポイント | 出現数 |
---|---|---|
アプリ | 19475 | 158 |
ヘルスケア | 1191 | 24 |
クラウドファンディング | 3922 | 60 |
スタートアップ | 62768 | 250 |
… | … | … |
##4. 新しい記事を解析して、されるだろういいね! 数を予測する
新しい記事の内容を解析して単語を抽出し、3で作ったデータベースと照らし合わせていいね!されるだろう数字を予測してみます。
記事タイトル | URL | like数 |
---|---|---|
世界累計1,200 万人が使うダイエットアプリ「Noom コーチ」が大幅リニューアル、Appleの新ヘルスケアアプリケーションと連携 | http://thebridge.jp/2014/09/noom-update-201409 | 211 |
追記あり】前ハフィントンポスト日本版編集長の松浦氏、スマートニュースへ | http://thebridge.jp/2014/09/former-editor-in-chief-shigeki-matsuura-joins-smart-news | 773 |
本日限り、予約なしで新スマホが手に入る特別会場までUberが無料送迎 | http://thebridge.jp/2014/09/uber-gets-you-new-iphone | 22 |
Y-Combinator卒業生が語る「プロダクトや時代に合った最適なグロース」とは? | http://thebridge.jp/2014/09/traction-ceo-kenzi-wang-shared-his-growth-hack-ideas | 35 |
新しいビジネスモデルとなるか。手数料を定額制にしたクラウドファンディングサイトの「Funderbult」 | http://thebridge.jp/2014/09/funderbuilt-pickupnews | 17 |
… | … | … |
##5. 予測値と実際のいいね数を比べて精度を評価してみる
実際のいいね!数 | 予測したいいね!数 |
---|---|
138 | 493.7 |
322 | 592.7 |
65 | 245.8 |
194 | 268 |
4 | 231.6 |
138 | 493.7 |
187 | 545 |
71 | 243.7 |
136 | 486 |
65 | 139.7 |
526 | 545 |
71 | 243.7 |
136 | 486 |
65 | 139.7 |
147 | 234.3 |
147 | 234.3 |
58 | 231.1 |
351 | 432.1 |
212 | 214.8 |
104 | 231.1 |
グラフにすると、こんな感じ。
##まとめ
結果的には結構強気にいいね!数を予測する感じになりましたねw
この辺は、パラメータの調整や当てはめるグラフによって変わったりするので、ご愛嬌w
とりあえず、今回は実験として試しただけなので、本気でやろうと思ったら、記事元のドメイン、投稿されてからの経過時間、著者、単語の精査などもやるべきなのと、機械学習の仕組みを取り入れて、どんどん精度が上がっていくようにすると面白いんじゃないかと。