9
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

【BigQuery】 商品データを分析・可視化

Last updated at Posted at 2019-05-05

12d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f3132303839382f30313366663136332d333730642d373335382d376363612d38393466373932.png

概要

ECサイトの商品データ約30,000件をBigQueryで集計、Googleデータポータルで可視化・分析し、データの特徴や傾向把握を試みます

対象データ

今回対象とするのは、「Amazonにおけるインナーウェア製品データ」です

i01.png

スクリーンショット 2019-05-05 18.01.04.png

上記のように、「商品名/価格(ドル)/ブランド名/レビュー件数..」等のデータが約30,000件入っています
Kaggleにて公開されているので、CSVファイルとしてダウンロードしてきます

※実際のデータでは実在のブランド名が使われていますが、この記事内では全て仮名に置き換えています

▼ BigQueryで集計

データの用意

まずはBigQueryにデータを入れていきます

データセット作成

「データセットを作成」クリック

i02.png

データセットIDを入力

i03.png

i04.png

プロジェクトに、空のデータセットが作成されました

テーブル作成

「テーブルを作成」をクリック。データソースとしてCSVファイルをアップロード

i05.png

i06.png

CSVファイルが読み込まれ、テーブルが作成されました

SQL

現時点でデータは約30,000行

ただ、数が多いのは分析対象であるインナーウェアの「色ごと/サイズごと」で行が分けられているためで、Amazonでは色/サイズが違っても「1商品扱い(ひとまとめにレビューされる)」で設定されている場合が多くあります

今回のインナーウェアも、**商品によっては30バリエーション以上ある商品もありますが、それも「1商品扱い」**となります

今回「1商品扱い」となる条件は以下と設定します

  • ブランド名が同一
  • 商品名が同一
  • レビュー:評価が同一
  • レビュー:件数が同一

以上を踏まえ、SQLで商品情報の重複(同じ商品のバリエーション違い)をグルーピングします

SELECT
  brand_name,
  product_name,
  rating,
  review_count,
  TRUNC (AVG (price)) price_avg
FROM
  `practice-01-234805.amazon_products.az_innerwear`
GROUP BY
  brand_name,
  product_name,
  rating,
  review_count
ORDER BY
  brand_name,
  product_name,
  review_count
  DESC
;

「1商品扱い」でも、価格が違う場合があるので(とてもややこしいですが…)、価格に関してはグルーピングした「平均」を着地とし、TRUNC関数で小数点以下を切り捨てています

i07.png

「色/サイズ違い」をひとまとめにした結果、約30,000行あったデータが約400行にまとまり、各商品の平均価格が算出できました

▼ Googleデータポータルで可視化

BigQueryで集計したデータを、Googleデータポータルで可視化し、分析していきます
「データポータルで調べる」をクリック

i08.png

Googleデータポータルにデータが引き継がれます

i09.png

グラフ選択

分析に適したグラフを選択

i10.png

ディメンション/指標設定

分析したいディメンションと指標を設定

i11.png

可視化 結果

今回は各ブランドごとのレビュー数の比較や、価格帯ごとの商品数やレビュー数の比較等を行います

ブランド割合/レビュー投稿数の割合

egt57rst8.png

左の円グラフ「ブランド割合」で見ると、商品全体の半数以上を「wc」というブランドが占めており、次に「ck」というブランドが続きます

さらに、右の円グラフ「レビュー投稿数の割合」では「wc」が7割以上を占めており、このブランドはレビューの獲得にとくに成功していると言えます

ブランド毎の平均価格とレビュー評価

スクリーンショット 2019-05-03 18.39.18.png

上記は、ブランド毎の以下の値を棒グラフにしたものです

  • ブルー棒|平均価格
  • レッド棒|平均レビュー評価

「cc」というブランドが高価格でありながら、他のブランドに比べレビューの評価が「3.7」と低めです
高価格であることによるユーザーの期待に、十分に応えられていない可能性がありそうです

価格毎の レビュー投稿数と 商品数

53684368763854.png

上記グラフは

  • 左が低価格商品。右に行くほど高価格商品
  • ブルー棒|レビューの平均投稿数
  • オレンジ線|各価格帯の商品数

となっており、高価格商品になるにつれ(グラフ右に行くにつれ)、レビュー投稿数が多いことが分かります

またグラフ左右を比べると、グラフ左側(低価格帯)は、商品数(オレンジの線)に対し、レビューの平均投稿数(ブルーの棒)が少なめになっています。つまり「高価格の商品ほどレビューが投稿されやすく低価格の商品はレビューが投稿されずらい」と言えます

高価格の商品の方が低価格商品より熱を持って購入され、レビューに対するモチベーションも高くなるのではないか、と考えることができそうです

総括

約30,000件の商品データを、BigQueryで集計、Googleデータポータルで可視化・分析し、

  • wcというブランドがレビューの獲得にとくに成功している
  • ccというブランドが、高価格であることの期待に応えられていない可能性がある
  • 高価格の商品ほどレビューが投稿されやすい

など、特徴・傾向を把握することができました。それをもって、

  • ccブランドの満足度向上に取り組む
  • 低価格商品のレビュー獲得手段を検討する

など、次の施策検討に活かすことができるかと考えます

9
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
6

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?