はじめに
分析をしましょうとなったとき、何から手を付けたらよいかわからないという人もいるかと思います。この記事はまずその足掛かりになればと思い記載します。
この記事の位置づけ
以下の記事を作成予定です。
- 問題設定・基礎分析 ←今回
- 効果検証・ABテスト
- データ解釈・特徴量エンジニアリング
- 教師あり学習
- 数理最適化
- 分析結果のセルフチェック観点
概要スライド
分析における問題設定
分析関連の業務とはどのようなものがあるでしょうか。
例えば
- 売り上げが下がったので、その原因調査をしてほしい
- 購買データがあるのだけれど、有効活用できていないので支援をしてほしい
- 機械学習モデルを用いて、業務を最適化したい
なんてものがあるかもしれません。
共通して言えるのは、分析は意思決定を助けるために行うということです。
つまり、
- 売り上げが下がった原因を究明し、改善につなげる
- データを通じて顧客理解を深めて施策の方向性を決める
- 機械学習モデルを用いることで、人が様々な情報を見て総合的に判断していた部分を自動化する
など、最終的には「判断を支える」ことがゴールになります。
最終的な成果として、「判断を助ける」という点に帰着する以上、どのような意思決定を助けるために分析するのかという点を明らかにしなくてはなりません。
「何のために分析するのか」を明確にしないと、扱うデータや確認する指標が定まりません。
目的をしっかり定めることで、分析業務を実施する上でのガイドとなります。
目的を設定する際は、現象(=今起きていること)と原因(=なぜ起きたか)を分けて考えると整理しやすくなります。
たとえば「売上が下がった」という現象に対して、「顧客数が減った」「単価が下がった」などの原因を仮説として立てていくことで、見るべきデータや指標が明確になります。(後述)
データを扱う前に確認すべき視点
目的が定まったとして、どのようにデータを扱うかはどこから考えればよいのでしょうか。
いくつかの視点が存在します。
- 背景と目的
- 分析の背景や課題
- 目的(どのような意思決定を助けたいのか)から逆算して必要な指標を確認する
- 分析するテーマや対象を明らかにすることで、スコープを明確化する
- 分析が必要な理由を明らかにすることで、何から見るべきかがわかる
- 分析結果を確認する人を把握することで、説明に必要な情報の方向性が定まる
- 分析作業をする視点
- 時系列変化が関連しそうな分析か
- その場合、どれくらいの期間が必要か
- 属性情報で、いつも確認している指標などはあるか
- 性年代ごとにアクションが異なるなど
- 欠損値や外れ値の有無などデータそのものの特性
- 時系列変化が関連しそうな分析か
分析に必要な変数や期間(時点)、対象者などを検討するために、これらの情報が必要となります。
実際の手順
とはいえ、どんな手順で進めるかを理解しないと手が進まないと思います。
以下に進め方の一つの例を示します。
-
課題を把握
- どんな課題を抱えているのかを把握する
- 何が分かればアクションにつながるか確認する
- 例:売上が低迷しているので、その原因を探り改善につなげたい
-
分析のゴールを設定
- 最終的に確認する指標を確認する
- 例:売上の変動を、月別・チャネル別・顧客属性別に集計し、どこで落ち込みが生じているかを明らかにする
-
目的を仮説に落とし込む
- ゴールを分解し、仮説を立てる
- 以下のような手段を活用するとよいと思います
- ロジックツリー
- 要因を網羅的に分解する。MECE(漏れなくダブりなく)を意識するとよし。
- チャネル別や属性別、新規/既存などがよく使われる
- ファネル
- ファネルとはユーザーが目的を達成するまでの各ステップでどれだけ離脱しているかを可視化し、ボトルネック(改善ポイント)を特定するための分析手法
- 例:ECサイト(トップページ訪問→商品ページ閲覧→カートに追加→購入完了)
- 過去事例・経験
- 特に現場の意思決定に活用する場合に有効
- 現場の勘がデータにそのまま出てくるときもあれば、ずれているときもある
- ずれているときも、"感覚とずれていた"という説明材料があることは有効
- ロジックツリー
-
仮説を検証する
実践例:基礎分析
基礎分析とは、データを扱ううえで最初に行う、「全体像の把握」や「特徴の整理」を目的とした分析です。
データの構造や傾向、偏りを可視化・集計し、次の分析への足場を作るステップです。
- 扱うデータを把握する
- 分析の目的を明らかにする
- 上述の通り目的が曖昧なままだと、使用すべきデータや確認すべき変数が定まりません
- 基礎分析であっても、仮で「XXに関係しそうな視点を探ってみよう」というのがあったほうが良い
- データの構造を確認
- ユニークキー(ID)が何か
- 顧客単位や購入単位など、分析の目的に応じた集計が可能か
- データの重複がないか
- いつ時点のデータで、いつ更新されるデータなのか
- 目的から逆算して、必要な指標を確認する
- どの変数を見るか
-
【目的】を構成する要素を分解して、どのような要素があるか確認する
-
数値変数
- 「数値化しやすい成果」に関係する変数
- 単価 / 頻度 / 日数 / 回数 / 累計金額 / 最終購入日からの経過日数など
- 「数値化しやすい成果」に関係する変数
-
カテゴリ値
- 顧客属性:年齢層・性別・地域・会員ランク
- 購買チャネル・行動:購入チャネル・時間帯・曜日・支払い方法・デバイスなど
- 商品・サービス要因:商品カテゴリ・キャンペーン参加・サブスク有無など
-
- どの指標を見るか
- 数値変数
- 統計量:平均、中央値、最小値、最大値、標準偏差、四分位範囲、欠損数
- 可視化:ヒストグラム、箱ひげ図
- カテゴリ変数
- 件数・割合
- 可視化:棒グラフ
- 数値変数
- どの組み合わせを見るか
- カテゴリ変数 × 数値変数
例:「チャネル別に購入単価の平均を見る」など、カテゴリごとの傾向を比較 - カテゴリ変数 × カテゴリ変数
例:「性別 × 商品カテゴリ」など、構成の偏りや分布を確認 - 数値変数 × 数値変数
例:「累計購入金額 × 継続期間」など、相関の有無をざっくり把握
- カテゴリ変数 × 数値変数
- どの変数を見るか
- 要点を言語化して資料にまとめる
- 気づいた点は、テキストと簡単な表・グラフで整理しておく
- ツールにはこだわらず、扱いやすいものから始めるのも一つの手
- 例
- 顧客単価の平均は8,420円、中央値は3,200円。高額購入者によるロングテール構造
- 購入頻度は全体で平均2.3回だが、70%以上は1回のみ
- 高額層はゴールド会員かつWebチャネルの比率が高い