概要
ECサイトの商品データ約30,000件をBigQueryで集計、Googleデータポータルで可視化・分析し、データの特徴や傾向把握を試みます
対象データ
今回対象とするのは、「Amazonにおけるインナーウェア製品データ」です
上記のように、「商品名/価格(ドル)/ブランド名/レビュー件数..」等のデータが約30,000件入っています
Kaggleにて公開されているので、CSVファイルとしてダウンロードしてきます
※実際のデータでは実在のブランド名が使われていますが、この記事内では全て仮名に置き換えています
▼ BigQueryで集計
データの用意
まずはBigQueryにデータを入れていきます
データセット作成
「データセットを作成」クリック
データセットIDを入力
プロジェクトに、空のデータセットが作成されました
テーブル作成
「テーブルを作成」をクリック。データソースとしてCSVファイルをアップロード
CSVファイルが読み込まれ、テーブルが作成されました
SQL
現時点でデータは約30,000行
ただ、数が多いのは分析対象であるインナーウェアの「色ごと/サイズごと」で行が分けられているためで、Amazonでは色/サイズが違っても「1商品扱い(ひとまとめにレビューされる)」で設定されている場合が多くあります
今回のインナーウェアも、**商品によっては30バリエーション以上ある商品もありますが、それも「1商品扱い」**となります
今回「1商品扱い」となる条件は以下と設定します
- ブランド名が同一
- 商品名が同一
- レビュー:評価が同一
- レビュー:件数が同一
以上を踏まえ、SQLで商品情報の重複(同じ商品のバリエーション違い)をグルーピングします
SELECT
brand_name,
product_name,
rating,
review_count,
TRUNC (AVG (price)) price_avg
FROM
`practice-01-234805.amazon_products.az_innerwear`
GROUP BY
brand_name,
product_name,
rating,
review_count
ORDER BY
brand_name,
product_name,
review_count
DESC
;
「1商品扱い」でも、価格が違う場合があるので(とてもややこしいですが…)、価格に関してはグルーピングした「平均」を着地とし、TRUNC関数で小数点以下を切り捨てています
「色/サイズ違い」をひとまとめにした結果、約30,000行あったデータが約400行にまとまり、各商品の平均価格が算出できました
▼ Googleデータポータルで可視化
BigQueryで集計したデータを、Googleデータポータルで可視化し、分析していきます
「データポータルで調べる」をクリック
Googleデータポータルにデータが引き継がれます
グラフ選択
分析に適したグラフを選択
ディメンション/指標設定
分析したいディメンションと指標を設定
可視化 結果
今回は各ブランドごとのレビュー数の比較や、価格帯ごとの商品数やレビュー数の比較等を行います
ブランド割合/レビュー投稿数の割合
左の円グラフ「ブランド割合」で見ると、商品全体の半数以上を「wc」というブランドが占めており、次に「ck」というブランドが続きます
さらに、右の円グラフ「レビュー投稿数の割合」では「wc」が7割以上を占めており、このブランドはレビューの獲得にとくに成功していると言えます
ブランド毎の平均価格とレビュー評価
上記は、ブランド毎の以下の値を棒グラフにしたものです
- ブルー棒|平均価格
- レッド棒|平均レビュー評価
「cc」というブランドが高価格でありながら、他のブランドに比べレビューの評価が「3.7」と低めです
高価格であることによるユーザーの期待に、十分に応えられていない可能性がありそうです
価格毎の レビュー投稿数と 商品数
上記グラフは
- 左が低価格商品。右に行くほど高価格商品
- ブルー棒|レビューの平均投稿数
- オレンジ線|各価格帯の商品数
となっており、高価格商品になるにつれ(グラフ右に行くにつれ)、レビュー投稿数が多いことが分かります
またグラフ左右を比べると、グラフ左側(低価格帯)は、商品数(オレンジの線)に対し、レビューの平均投稿数(ブルーの棒)が少なめになっています。つまり「高価格の商品ほどレビューが投稿されやすく、低価格の商品はレビューが投稿されずらい」と言えます
高価格の商品の方が低価格商品より熱を持って購入され、レビューに対するモチベーションも高くなるのではないか、と考えることができそうです
総括
約30,000件の商品データを、BigQueryで集計、Googleデータポータルで可視化・分析し、
- wcというブランドがレビューの獲得にとくに成功している
- ccというブランドが、高価格であることの期待に応えられていない可能性がある
- 高価格の商品ほどレビューが投稿されやすい
など、特徴・傾向を把握することができました。それをもって、
- ccブランドの満足度向上に取り組む
- 低価格商品のレビュー獲得手段を検討する
など、次の施策検討に活かすことができるかと考えます