はじめに
分析をしましょうとなったとき、何から手を付けたらよいかわからないという人もいるかと思います。この記事はまずその足掛かりになればと思い記載します。
この記事の位置づけ
以下の記事を作成予定です。
- 問題設定・基礎分析
- 効果検証・ABテスト
- データ解釈・特徴量エンジニアリング ←今回
- 教師あり学習
- 数理最適化
- 分析結果のセルフチェック観点
変数とは
観測対象の特徴を表す項目を変数といいます。
分析の用途に合わせて加工をしますが、元データがどのような値かを理解する必要があります。
特徴量エンジニアリングとは
「モデルが使いやすいようにデータを加工し、予測力のある特徴(変数)を作ること」です
変数の種類
- 質的変数
- 名義尺度(例:性別、血液型)
- 必要に応じてワンホットエンコーディングを実施
- 順序尺度(例:アンケート満足度 1〜5)
- 回帰モデルなどに入れる時そのままの値で入れると解釈に誤りが出る場合があるので注意
- 名義尺度(例:性別、血液型)
- 量的変数
- 間隔尺度(例:気温、テスト点数)
- 比尺度(例:身長、体重、売上金額)
- 比率にしたり対数変換したりすることも有
スケールと単位
- メートル、キログラム、円、%など
データの収集方法
「どんな方法でデータが集められたのか」によって信頼性や考慮すべき事項があります。
- 収集方法の違い
- アンケート → 回答者層に偏りがち
- センサー → 故障や誤作動で欠損が発生
- ログ
- 観測バイアス
- 例:センサー停止期間のデータ欠損
- サンプリングバイアス
- 例:架電履歴データには「非架電者」が含まれない
- 対策:層別抽出や重み付け
分布を確認
集計やモデル作成が極端な値の影響を受けないかを確認します
- 外れ値の対処
- 定義:平均や中央値から大きく外れた値
- 検出:箱ひげ図、Zスコア、IQR
- 対応:削除、極端値を切る、ログ変換
- 分布を知る
- ヒストグラムや箱ひげ図で分布の形を確認
- 歪度・尖度で分布の特徴を定量化
スケール変換を行う
- 正規化(0〜1)
- 値を0〜1にそろえる
- ニューラルネットや距離計算で有効
- 標準化(平均0・分散1)
- 回帰分析やクラスタリングでスケール差を吸収できる
- 対数変換(Log)
- 右に長い分布を縮める
- 成長率の解釈をしやすくする
- ※0や負の値には使えない
ドメイン知識を活用し、新しい変数を作る
業務知識を活用しながら既存の変数から新しい変数を設計します。
ビジネス部門からどのような観点を見ているかなどヒアリングをしても良いと思います。
- 比率・頻度
- 購買回数 ÷ 来店回数 = リピート率
- 交互作用
- 年代 × チャネル = 属性ごとの行動傾向
- 時系列
- 移動平均、直近7日の取引有無
- 集計特徴量
- ユーザーごとの平均購入単価、カテゴリごとの最大購入額
データ解釈
変数を理解したらそれを用いた分析をみていきます
データの価値は、数字そのものではなく、未来の行動につながる示唆を出すことが必要です
- データの全体像を把握する
- データの概要をざっと確認することで、どんな要素で分けて見られる情報かを確認する
- 行数・列数
- 変数(列)の種類:数値/カテゴリ/日付
- 単位や定義(円・件・% なのか?)
- データの概要をざっと確認することで、どんな要素で分けて見られる情報かを確認する
- 基本的な分布を見る
- このデータはどんな値をとっていて、何を“普通”とみなすべきかを把握する
- 記述統計で全体像をつかむ
- 平均や中央値を見る → 「このデータの“普通”はどのあたりか」が分かる
- 最大・最小を見る → 「どこまで振れ幅があるのか(想定の範囲)」が分かる
- 分散や標準偏差を見る → 「バラつきが大きいのか、小さいのか」を確認できる
- カテゴリ値は頻度集計
- 観点を変えて比較する
- 全体の数字だけでは気づけない違いが、層や期間で分けると見えてくる
- 比較することで「どこで差が出ているか」が明確になり、アクションにつなげられる
- 観点の例
- 時系列
- 売上の推移、日別・月別トレンド
- 属性別
- 新規顧客 vs 既存顧客、チャネル別、年代別
- クロス集計
- 「誰が」「いつ」「どのチャネルで」などを組み合わせる
- 示唆を出すための切り口
- 事実の羅列ではアクションにつながりません
- データから考えられる“次の行動につながる仮説”を提示することで議論が進みます
- どこから考えるか
- 差分から考える
- 昨年比、平均比、他属性との比較
- 変化から考える
- 増減、季節性、トレンド
- 関係性から考える
- 施策を打ったとき売上も伸びているか
- バイアスなどにも注意
- 差分から考える
モデル解釈
解釈が必要なのは集計結果にかぎりません。
モデルも作って終わりではなく、必要に応じて説明を求められることもあります。
- どういうデータを使ったのか
- 何をもとに予測しているのか
- なぜその変数が効いているのか
といった“納得感”が求められる場面が多くあります。
解釈・説明を踏まえることで、予測をもとにした施策にも納得感が生まれ、データを使った意思決定がスムーズになります。
- Feature Importance(特徴量重要度)
モデルが予測にどの特徴量をどれくらい使っているかを表す指標
変数が効いているのかを理解するには、元の分布や意味も合わせて見る必要あり - SHAP
各特徴量が予測にどう影響したかを「+方向/−方向」で示す手法
元の変数の分布を知らないと、「なぜこの値が+に効いているのか?」が分からなくなる