Reblogen ランキング
Tumblrの直近24時間のうちで、リブログ、ライクの多かったポストをランキング形式で表示する「Reblogen ランキング」というサイトを作りました。同系統のコンセプトを持っている先行サイトとして「たんぶらうざ」「Tumblr PORT」といったサイトがありました、しかし現在では、それぞれ更新停止、サイト閉鎖と全滅状態となってしまっていたため、今回代替サイトを立ち上げました。Tumblr沼に引き込むための入り口となるサイトです。
本記事では、どうやってランキングを生成しているかのロジック、及び手間がかかった事などをまとめます。もし同系統のサイトを立ち上げようとしている方がいらっしゃったら、参考にして頂けると幸いです。一緒にTumblrを盛り上げて行きましょう!
ランキングの生成ロジック
かなりシンプルな方法でランキングを生成しています。ざっくり言うと適当にアルファリブロガーのアカウントをリストアップし、その人達の直近のポストを走査する事でランキングを生成します。
実際のフロー
- アルファリブロガーと思われる人を、数十人リストアップする
- リストアップしたアカウントから順番に走査
- アカウント毎に、Tumblr API をつかって直近100ポストを取得
- 重複を防ぐために 投稿元のポストID(reblogged_root_id)でユニーク化
- 24時間以内のポストからライク・リブログ数でランキングを生成
特記した方が良い工程の詳細は以下です。
アルファリブロガーと思われる人を、数十人リストアップする
これが地味に一番難しかった。色々試したのだけれども、結局良い方法が思いつきませんでした。ランキングのベースとするためなので、自分から投稿をするタイプの人ではなく、ひたすらリブログしまくる系のアルファリブロガーの人が適任。よいランキングを作るために、アンテナの高い人がいい。ランキングの偏りを無くすために、さまざまなジャンルの人を集める必要がある。サイトのターゲットは、日本人が対象なので日本人の人がいいかな。そんなオーダーなのですが、そんな要望を満たすリストは、この世界のどこにもなかった!
とりあえず、死ぬほど有名な otsuneさん、ak47さん、katoyuuさんなんかを追加。「Tumblr 有名 アカウント」でGoogle検索して出てきた、日本で有名なtumblrアカウント を参考に追加。たんぶらうざに登場したアカウントを追加。自分がフォローしている人からちょいちょい追加、などなどを行って、なんとかかんとかリストを作成しました。うーん、無理矢理感がすごいので、もっといい方法があるといいのですが。この点だけ模索中。
アカウント毎に、Tumblr API をつかって直近100ポストを取得
OAuthしてのTumblr APIコールの仕方は私が以前の記事にまとめたのがありますので良かったらそっちを参照してください。
Tumblr API OAuth認証の方法(PHPサンプル付き)
アカウント毎に100ポストとしているのは、ランキングが特定のアカウントに偏るのが嫌だったのでこのようにしました。色々なアカウントからポストを収集した方がいいかなと。
24時間以内のポストからライク・リブログ数でランキングを生成
24時間縛りもちょっとだけ面倒でした。ランキングの鮮度を保つためにも、ぜひ時間の縛りを入れたかった。なのにAPIから取得出来るのはそのポストが投稿された日付だけです。そのためリブログの場合は、元のポストが投稿された日時ではなく、リブログがされた日時になってしまいます。単純に投稿日時で絞ってしまうと、何年も前のポストがたまたま24時間以内にリブログされてしまうとランキングに登場してしまうのです。それはなんか違うかなと思いまして、あくまで元のポストが投稿された日時で絞りたかった。
でもAPIからは、投稿元のポストID(reblogged_root_id)は取得出来るのですが、その投稿元のポストが投稿された日時は取得出来ません。そこで、投稿元のポストID(reblogged_root_id)を使って元のポストが何時頃に投稿されたかを類推する方法を使いました。下記の記事で作成した日時とポストID対応テーブルから投稿日時を逆算しています。
パワー系Endless Summer。TumblrでランダムなポストIDを取得
https://qiita.com/newton/items/1114e443a90e204746ad
エロ対策
エロ対策は、今回のランキングサイト作成にあたって最重要事項と言ってよいでしょう。Tumblrは文化なのか知りませんが、エロ投稿は息をするように行われます。それも「さっきまでずっと猫画像ばっかり投稿していた人が突然エロ画像をリブログしてきた」なんて事も普通に発生します。しかも、無修正的なアレだったりする事も多く、我が国の法律に照らし合わせて色々まずいんじゃないかという事もしばしば。ランキングサイトは、不特定多数の公衆に向けて公開するサイトです。ですからエロ対策は絶対に必要です。
アダルト可のサーバーに移転する
エロ対策ステップ1は、サーバーの移転です。とりあえずサーバーはアダルト可のサーバーに移転しておいた方がいいかなと思いまして。色々調べた結果、今回はGMOクラウドのVPSを利用させて頂きました。GMOさん、エロ可サーバーのご運営ありがとうございます。大変助かります。
GMOクラウド FAQより引用
Q. アダルトサイトの運営は可能ですか?
A. 可能です。
ただし、アダルトサイトにかかわらず、法令または公序良俗に反する内容は禁止とさせていただいております。
禁止行為の詳細はご契約プランの利用約款をご参照ください。
画像解析APIを用いたエロ画像フィルタリング
アダルト可といっても、上記の通り法令に違反するような行為はご法度となります。そのため結局エロ画像のフィルタリングは必要になってきます。今回は、画像解析APIを利用してエロ画像のフィルタリングを行いました。画像解析APIで有名な「Google Cloud Vision API」と「Microsoft Azure Computer Vision API」の2つで性能評価を行った上でどちらを使うかを選定しました。
性能検証の対象画像
今回性能検証を行う上で、ほとんど裸の2人が汗だくでくんずほぐれつしている画像を用意しました。
お相撲さんの判定はかなり難しいはずなのです。「クロールしてエロ画像を自動収集するBOTを作ったらお相撲さんだらけになった」なんて笑い話があるぐらいです。画像判定にとって、お相撲さんのエロ判定は永遠のテーマ。性能検証にうってつけといってよいでしょう。この画像をそれぞれのAPIで検証した結果が以下となります。
Google Cloud Vision API
"safeSearchAnnotation": {
"adult": "POSSIBLE",
"spoof": "VERY_UNLIKELY",
"medical": "VERY_UNLIKELY",
"violence": "VERY_UNLIKELY"
}
※ 左に行くほど可能性が高い。VERY_LIKELY > LIKELY > POSSIBLE > UNLIKELY > VERY_UNLIKELY
Microsoft Azure Computer Vision API
"adult": {
"isAdultContent": false,
"isRacyContent": true,
"adultScore": 0.28257384896278,
"racyScore": 0.93793398141861
}
性能検証結果
上記のような結果となりました。Googleの方は、アダルト判定が「POSSIBLE」6段階の真ん中ですので、エロいのかどうなのか判定出来ず。迷いが感じられます。一方で、Microsoft Azureは、「isAdultContent」が「false」できっぱりとアダルト画像であることを否定しています。素晴らしい! ただ「isRacyContent」は「true」なので際どい? いやらしい? とは判定しているようです。まあ際どいと言えば際どいと思うので気にしない事にします。
というわけで、今回はよりアダルト判定の性能が高かった Microsoft Azure Computer Vision API を選定いたしました。
節約の必要性
Computer Vision API を組み込んだ仕組みを構築したのですが、一点だけ問題がありました。Computer Vision APIの無料枠は月に5000コールまでです。今回の施策での想定として、1日のコール数は最大200程度。毎日ランキングを更新したとすると 200 * 30 = 6000コールなので無料枠を超えてしまう恐れがありました。
まあ、お金払えよって話なんですが、もうちょっと節約したら無料枠に収まりそうだったのでなんとかしたかった。なんかないかなーと考えたのですが、私重要な事に気づいてしまいました。Computer Vision API よりもっともっと高性能なエロ画像判定が出来る奴ありましたわ。私自身のエロ判定の方が信頼出来る。APIなんぞに負けはしない。そんなわけでバッチと私の共同作業、マーメイドスタイルで行く事にしました。
エロ判定マーメイドスタイル詳細
マーメイドスタイルの概要はこうです。ランキング生成のバッチ、自動でのエロ判定、手動でのエロ判定、それぞれのタイミングをずらすことでバッチと人間の共同作業を可能にしました。以下に実行タイミングを図にまとめました。
このように、19時に非公開状態でランキングをデータベース上に生成、そして何もしないと0時にバッチが動いてアダルト判定と公開処理を行います。もしくは、19時~0時の間に手動アダルト判定用の管理画面に私がアクセスしてアダルトチェックした場合は、その時点で公開され0時のバッチ実行がスキップされます。バッチと人間がお互い支え合う、なんと美しい。