Edited at

最新記事のいいね!数を予測してみる

More than 5 years have passed since last update.

どうも、最近は自動的に収集される情報だけで過多になってきているokappyです。

ここで言うところの自動的に収集される情報ってのは、facebook,twitter,各種ニュースアプリ,RSSなどで収集しているWebコンテンツのことを指してます。

情報が多いので、SNSを見るのを制限したり、ニュースアプリで満足したふりをしてみたり、RSSを完全放置して、未読件数がギネス級になったりしている方も少なくないのではないでしょうか?

でも、どうせ情報収集するならWeb上に公開された瞬間に、その後注目されそうな記事だけを効率良く収集したい!!

ってことで、RSSで取得した記事をリアルタイムに解析して、その記事がされるだろういいね!数を予測してみようという取り組みをしてみました。

で、いいね!数の予測が多い記事だけを見れば、最新であり効率も良いというわけです。


では、実際に小規模実験をしてみた流れを具体的に説明します。


1. mecabを準備

http://qiita.com/ysk_1031/items/7f0cfb7e9e4c4b9129c9


2. 「THE BRIDGE」の記事をrssで取得する

今回は過去2418件のTHE BRIDGEの記事を使って実験してみました。

以下のようなデータを準備します。

title
url
like_count

世界累計1,200 万人が使うダイエットアプリ「Noom コーチ」が大幅リニューアル、Appleの新ヘルスケアアプリケーションと連携
http://thebridge.jp/2014/09/noom-update-201409
211

追記あり】前ハフィントンポスト日本版編集長の松浦氏、スマートニュースへ
http://thebridge.jp/2014/09/former-editor-in-chief-shigeki-matsuura-joins-smart-news
773

本日限り、予約なしで新スマホが手に入る特別会場までUberが無料送迎
http://thebridge.jp/2014/09/uber-gets-you-new-iphone
22

Y-Combinator卒業生が語る「プロダクトや時代に合った最適なグロース」とは?
http://thebridge.jp/2014/09/traction-ceo-kenzi-wang-shared-his-growth-hack-ideas
35

新しいビジネスモデルとなるか。手数料を定額制にしたクラウドファンディングサイトの「Funderbult」
http://thebridge.jp/2014/09/funderbuilt-pickupnews
17




3. 過去の記事の記事といいね!数を解析する

今回は、記事に含まれる単語をmecabで抽出して、その記事のいいね!数に応じてその単語にポイントを付与し、単語ごとに出現数とポイントをデータベース化して教師データとしました。

単語
ポイント
出現数

アプリ
19475
158

ヘルスケア
1191
24

クラウドファンディング
3922
60

スタートアップ
62768
250




4. 新しい記事を解析して、されるだろういいね! 数を予測する

新しい記事の内容を解析して単語を抽出し、3で作ったデータベースと照らし合わせていいね!されるだろう数字を予測してみます。

記事タイトル
URL
like数

世界累計1,200 万人が使うダイエットアプリ「Noom コーチ」が大幅リニューアル、Appleの新ヘルスケアアプリケーションと連携
http://thebridge.jp/2014/09/noom-update-201409
211

追記あり】前ハフィントンポスト日本版編集長の松浦氏、スマートニュースへ
http://thebridge.jp/2014/09/former-editor-in-chief-shigeki-matsuura-joins-smart-news
773

本日限り、予約なしで新スマホが手に入る特別会場までUberが無料送迎
http://thebridge.jp/2014/09/uber-gets-you-new-iphone
22

Y-Combinator卒業生が語る「プロダクトや時代に合った最適なグロース」とは?
http://thebridge.jp/2014/09/traction-ceo-kenzi-wang-shared-his-growth-hack-ideas
35

新しいビジネスモデルとなるか。手数料を定額制にしたクラウドファンディングサイトの「Funderbult」
http://thebridge.jp/2014/09/funderbuilt-pickupnews
17




5. 予測値と実際のいいね数を比べて精度を評価してみる

実際のいいね!数
予測したいいね!数

138
493.7

322
592.7

65
245.8

194
268

4
231.6

138
493.7

187
545

71
243.7

136
486

65
139.7

526
545

71
243.7

136
486

65
139.7

147
234.3

147
234.3

58
231.1

351
432.1

212
214.8

104
231.1


グラフにすると、こんな感じ。


まとめ

結果的には結構強気にいいね!数を予測する感じになりましたねw

この辺は、パラメータの調整や当てはめるグラフによって変わったりするので、ご愛嬌w

とりあえず、今回は実験として試しただけなので、本気でやろうと思ったら、記事元のドメイン、投稿されてからの経過時間、著者、単語の精査などもやるべきなのと、機械学習の仕組みを取り入れて、どんどん精度が上がっていくようにすると面白いんじゃないかと。