LoginSignup
2

More than 1 year has passed since last update.

エロマーケットプレースの研究シリーズ 1: エロマーケットプレースを調べたい

Last updated at Posted at 2022-05-22

エロマーケットプレースという言葉を定義しよう

以下のようなエロいコンテンツを置いている場所で

  • FANZA ビデオ
  • FANZA 同人
  • FC2 コンテンツマーケット
  • FC2 ビデオ
  • DLSite
  • KoeKoe

そのコンテンツが以下のような情報を持っている

  • タグ、タイトル、本文などコンテンツを分類する情報
  • 再生数、販売数、お気に入り数、評価数、などのコンテンツの品質や成功度合いを示す情報

僕は、これを今日からエロマーケットプレースと呼ぶことにする

まずやりたいことを考える

二つ考えた

  • タグ、タイトル、本文などから、売り上げなどを予測する(順問題)
  • どんなタグ、タイトル、本文が売れているのか(逆問題)

逆問題の方が圧倒的に面白そう

データや具体的なサイト名は公開しない

これは、人のサイトをクロールして情報を取得してくる必要がありそうなので、その情報やサイト名などは公開しない方針とする。

進捗とできる限りのコードは載せていこうと思う。

分析どうやってやる?

例によってパワフルなGPUもないし、クラウドもめんどくさいので、分析に関しては LightGBM を使って feature_importance を取るのが良いのではないか

特徴量どうやって出す?

タグの並び、本文、タイトルをそれぞれ TG-IDF でベクトル化、その他価格とか数値系の情報を結合すれば良いのかな?

やったことないけど

クロールどうやってやる?

Scrapy ってやつを使ってみるか

次は

Scrapy を使ってみます

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2