エロマーケットプレースという言葉を定義しよう
以下のようなエロいコンテンツを置いている場所で
- FANZA ビデオ
- FANZA 同人
- FC2 コンテンツマーケット
- FC2 ビデオ
- DLSite
- KoeKoe
そのコンテンツが以下のような情報を持っている
- タグ、タイトル、本文などコンテンツを分類する情報
- 再生数、販売数、お気に入り数、評価数、などのコンテンツの品質や成功度合いを示す情報
僕は、これを今日からエロマーケットプレースと呼ぶことにする
まずやりたいことを考える
二つ考えた
- タグ、タイトル、本文などから、売り上げなどを予測する(順問題)
- どんなタグ、タイトル、本文が売れているのか(逆問題)
逆問題の方が圧倒的に面白そう
データや具体的なサイト名は公開しない
これは、人のサイトをクロールして情報を取得してくる必要がありそうなので、その情報やサイト名などは公開しない方針とする。
進捗とできる限りのコードは載せていこうと思う。
分析どうやってやる?
例によってパワフルなGPUもないし、クラウドもめんどくさいので、分析に関しては LightGBM を使って feature_importance を取るのが良いのではないか
特徴量どうやって出す?
タグの並び、本文、タイトルをそれぞれ TG-IDF でベクトル化、その他価格とか数値系の情報を結合すれば良いのかな?
やったことないけど
クロールどうやってやる?
Scrapy ってやつを使ってみるか
次は
Scrapy を使ってみます