はじめに
機械学習でテキスト分類や感情分析をしようと思って、オープンデータのコーパスを探したのですが、自分のやりたいことに合うものがなかったので、YahooショッピングのレビューからAPIでデータを取得することにしました。
コーパスとは、機械学習などの自然言語処理の素材データとして、文章やそれに対する付加情報を大量に集めたものです。
コードはこちら。(Python)
https://github.com/nannoki/yahoo_reviews
取得できるデータ
- 全部で100万レビューくらい取得できます。
- 階層構造のカテゴリ分類。大分類(22種類)>中分類(約330種類)>小分類(約3,700種類)
分類タスクの教師ラベルとして使えます。 - 商品に対する評価点。1.00(悪い)から5.00(良い)
感情分析の教師ラベルとして使えます。 - 上記カテゴリと評価点以外にも分析しがいのある項目がありますが、かなり欠損も多いです。
項目一覧
ヘッダカラム名 | 内容 |
---|---|
Description | レビューの本文 |
ReviewTitle | レビューのタイトル文(例:購入しました!) |
Rate | レビュー評価点 : 1.00(悪い)から5.00(良い) |
Average | レビュー平均点 |
CountAll | レビュー数 |
Recommend | レビューを見て役立った人の数 |
ReviewType | レビューの種類 : buyer(購入者)/other(クチコミ)/all(全員) |
Purpose | 購入目的 : daily(購入者)/hobby(趣味用途)/gift(プレゼント)/business(仕事用) |
SendTo | 誰用に購入したか : self(自分用)/family(家族親戚用)/friend(友人へ)/lover(彼氏彼女へ)/business(取引先へ) |
cat1_code | レベル1カテゴリid |
cat2_code | レベル2カテゴリid |
cat3_code | レベル3カテゴリid |
cat1_title_short | レベル1カテゴリ名 |
cat2_title_short | レベル2カテゴリ名 |
cat3_title_short | レベル3カテゴリ名 |
cat3_title_long | 親カテゴリを含むカテゴリ名 |
詳細はリンク先のGithubを見てください。
文章を書いた人の年齢層、性別情報を取得するために、楽天レビューを収集するツールも作ったので、整理できたらそのうち公開します。