データ抽出の心得
データ抽出を正確かつ効率的に行うためのポイントをまとめました。
目次
- ステップ1:データ抽出依頼内容の確認
- ステップ2:データ調査(過去の類似集計確認も含む)
- ステップ3:集計手順の整理
- ステップ4:数値チェック
ステップ1:データ抽出依頼内容の確認
例えば、
10月の配信件数と今までの配信件数を抽出してください
といった依頼が来た場合、以下4つを確認すること
①どのようなアウトプットが求められているかを明確にすること
②対象者、除外条件、必要なデータの時点など、要件を詳細に確認すること
③集計の軸となる母集団を特定すること
④提出期限を確認すること
■確認例
①数字だけを共有すれば問題ないのか。
また、可能であれば抽出する背景を教えてください
②配信件数とは〇〇施策における配信件数で問題ないのか。
また今までとは今年度を指していますでしょうか。
③〇〇のデータテーブルを使用すれば宜しいでしょうか。
④提出期限は〇〇日で問題ないでしょうか。
確認後、タスクのスケジュールを作成し、チェック体制などを計画する 。
ステップ2:データ調査(過去の類似集計確認も含む)
実際に使用するテーブルデータは、どのように蓄積(積み上げなのか等)されているのか,どんなデータ項目があるのか,データの更新頻度,データ状態(データレイク,データウェアハウス,データマート)を確認すること。
また、過去に作成された同様のクエリがないか確認し、ある場合内容を把握し、今回の集計に活用できる場合、活用すること。
■確認する理由
①確認することで、依頼者が求めている数値をだすために必要な要素がわかったり、
抽出できないことがわかり、早急に依頼者に共有することで、他の対策を依頼者側で
検討する時間を確保できるため。
②過去のクエリがあり、活用できればミスを軽減できるため
ステップ3:集計手順の整理
データの取得、統合、集約といったステップを以下のようにまとめる 。
まとめることで他の人がチェックするときに理解しやすくなる。
また、自身においてもどんな処理をしているのか可視化できミスに気づきやすくなる
ステップ4:数値チェック
抽出後以下2点を確認すること
①共通ダッシュボードとの比較
・全社またはチーム共通のダッシュボードの数値と、抽出した数値が一致しているか確認
②第三者によるダブルチェック
・第三者にクエリのチェックを依頼するか、同じ定義でゼロからクエリを作成してもらい結果が一致するか確認すること
※定義,使用するツールが増えた場合は以下もきをつけること
①ツール間の差異確認
・Tableauにて可視化する場合、直接基盤のデータを引っ張ってくる場合、基盤のデータ件数とTableauにて引っ張ってきたデータ件数が一致しているか確認
②前回提出データとの差異確認
・前月と今月のデータを比較する際、同じ期間のデータが前回抽出時と異なっていないかを確認し、差異があればその要因を調査