最新記事のいいね!数を予測してみる

  • 18
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

どうも、最近は自動的に収集される情報だけで過多になってきているokappyです。

ここで言うところの自動的に収集される情報ってのは、facebook,twitter,各種ニュースアプリ,RSSなどで収集しているWebコンテンツのことを指してます。

情報が多いので、SNSを見るのを制限したり、ニュースアプリで満足したふりをしてみたり、RSSを完全放置して、未読件数がギネス級になったりしている方も少なくないのではないでしょうか?

でも、どうせ情報収集するならWeb上に公開された瞬間に、その後注目されそうな記事だけを効率良く収集したい!!

ってことで、RSSで取得した記事をリアルタイムに解析して、その記事がされるだろういいね!数を予測してみようという取り組みをしてみました。

で、いいね!数の予測が多い記事だけを見れば、最新であり効率も良いというわけです。


では、実際に小規模実験をしてみた流れを具体的に説明します。

1. mecabを準備

http://qiita.com/ysk_1031/items/7f0cfb7e9e4c4b9129c9

2. 「THE BRIDGE」の記事をrssで取得する

今回は過去2418件のTHE BRIDGEの記事を使って実験してみました。
以下のようなデータを準備します。

title url like_count
世界累計1,200 万人が使うダイエットアプリ「Noom コーチ」が大幅リニューアル、Appleの新ヘルスケアアプリケーションと連携 http://thebridge.jp/2014/09/noom-update-201409 211
追記あり】前ハフィントンポスト日本版編集長の松浦氏、スマートニュースへ http://thebridge.jp/2014/09/former-editor-in-chief-shigeki-matsuura-joins-smart-news 773
本日限り、予約なしで新スマホが手に入る特別会場までUberが無料送迎 http://thebridge.jp/2014/09/uber-gets-you-new-iphone 22
Y-Combinator卒業生が語る「プロダクトや時代に合った最適なグロース」とは? http://thebridge.jp/2014/09/traction-ceo-kenzi-wang-shared-his-growth-hack-ideas 35
新しいビジネスモデルとなるか。手数料を定額制にしたクラウドファンディングサイトの「Funderbult」 http://thebridge.jp/2014/09/funderbuilt-pickupnews 17

3. 過去の記事の記事といいね!数を解析する

今回は、記事に含まれる単語をmecabで抽出して、その記事のいいね!数に応じてその単語にポイントを付与し、単語ごとに出現数とポイントをデータベース化して教師データとしました。

単語 ポイント 出現数
アプリ 19475 158
ヘルスケア 1191 24
クラウドファンディング 3922 60
スタートアップ 62768 250

4. 新しい記事を解析して、されるだろういいね! 数を予測する

新しい記事の内容を解析して単語を抽出し、3で作ったデータベースと照らし合わせていいね!されるだろう数字を予測してみます。

記事タイトル URL like数
世界累計1,200 万人が使うダイエットアプリ「Noom コーチ」が大幅リニューアル、Appleの新ヘルスケアアプリケーションと連携 http://thebridge.jp/2014/09/noom-update-201409 211
追記あり】前ハフィントンポスト日本版編集長の松浦氏、スマートニュースへ http://thebridge.jp/2014/09/former-editor-in-chief-shigeki-matsuura-joins-smart-news 773
本日限り、予約なしで新スマホが手に入る特別会場までUberが無料送迎 http://thebridge.jp/2014/09/uber-gets-you-new-iphone 22
Y-Combinator卒業生が語る「プロダクトや時代に合った最適なグロース」とは? http://thebridge.jp/2014/09/traction-ceo-kenzi-wang-shared-his-growth-hack-ideas 35
新しいビジネスモデルとなるか。手数料を定額制にしたクラウドファンディングサイトの「Funderbult」 http://thebridge.jp/2014/09/funderbuilt-pickupnews 17

5. 予測値と実際のいいね数を比べて精度を評価してみる

実際のいいね!数 予測したいいね!数
138 493.7
322 592.7
65 245.8
194 268
4 231.6
138 493.7
187 545
71 243.7
136 486
65 139.7
526 545
71 243.7
136 486
65 139.7
147 234.3
147 234.3
58 231.1
351 432.1
212 214.8
104 231.1


グラフにすると、こんな感じ。

まとめ

結果的には結構強気にいいね!数を予測する感じになりましたねw
この辺は、パラメータの調整や当てはめるグラフによって変わったりするので、ご愛嬌w

とりあえず、今回は実験として試しただけなので、本気でやろうと思ったら、記事元のドメイン、投稿されてからの経過時間、著者、単語の精査などもやるべきなのと、機械学習の仕組みを取り入れて、どんどん精度が上がっていくようにすると面白いんじゃないかと。