LoginSignup
10
7

More than 5 years have passed since last update.

自然言語処理用にYahooショッピングのレビューを大量に取得する

Posted at

はじめに

機械学習でテキスト分類や感情分析をしようと思って、オープンデータのコーパスを探したのですが、自分のやりたいことに合うものがなかったので、YahooショッピングのレビューからAPIでデータを取得することにしました。
コーパスとは、機械学習などの自然言語処理の素材データとして、文章やそれに対する付加情報を大量に集めたものです。

コードはこちら。(Python)
https://github.com/nannoki/yahoo_reviews

取得できるデータ

  1. 全部で100万レビューくらい取得できます。
  2. 階層構造のカテゴリ分類。大分類(22種類)>中分類(約330種類)>小分類(約3,700種類)
    分類タスクの教師ラベルとして使えます。
  3. 商品に対する評価点。1.00(悪い)から5.00(良い)
    感情分析の教師ラベルとして使えます。
  4. 上記カテゴリと評価点以外にも分析しがいのある項目がありますが、かなり欠損も多いです。

項目一覧

ヘッダカラム名 内容
Description レビューの本文
ReviewTitle レビューのタイトル文(例:購入しました!)
Rate レビュー評価点 : 1.00(悪い)から5.00(良い)
Average レビュー平均点
CountAll レビュー数
Recommend レビューを見て役立った人の数
ReviewType レビューの種類 : buyer(購入者)/other(クチコミ)/all(全員)
Purpose 購入目的 : daily(購入者)/hobby(趣味用途)/gift(プレゼント)/business(仕事用)
SendTo 誰用に購入したか : self(自分用)/family(家族親戚用)/friend(友人へ)/lover(彼氏彼女へ)/business(取引先へ)
cat1_code レベル1カテゴリid
cat2_code レベル2カテゴリid
cat3_code レベル3カテゴリid
cat1_title_short レベル1カテゴリ名
cat2_title_short レベル2カテゴリ名
cat3_title_short レベル3カテゴリ名
cat3_title_long 親カテゴリを含むカテゴリ名

詳細はリンク先のGithubを見てください。
文章を書いた人の年齢層、性別情報を取得するために、楽天レビューを収集するツールも作ったので、整理できたらそのうち公開します。

10
7
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
10
7