0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Googleデータアナリティクス:データクリーニングの検証の始め方(チェックリスト)

Last updated at Posted at 2023-04-15

はじめに

本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

データクリーニングの検証の始め方

検証は、あらゆる分析プロジェクトに おいて重要な部分です。 検証を行わない限り データ主導の意思決定において インサイトが信頼できるかどうか 知る術はありません。 検証はいわば、承認印のようなものです。

『検証とは、データクリーニングが適切に実施され その結果得られたデータが 正確で信頼できると確認するプロセス』

これには、期待値と現状を比較し 手動でデータクリーニングすることも 含まれます。

クリーンアップする前のデータセットと 現在のデータとを比較する

検証プロセスにおける最初のステップは クリーンアップする前のデータセットと 現在のデータとを比較することです。 ダーティなデータを見直し、 共通の問題点がないか確認するのです。

  • たとえば、NULL がたくさんあったとします。 この場合、クリーンデータをチェックして NULL が存在しないことを確認します。 そのためには、データを手動で検索するか 条件付き書式設定やフィルタなどの ツールを活用します。
  • あるいは、誰かが製品名を 何度も間違えて入力しているなど よくある誤字脱字が見られるかもしれません。 このような場合は クリーンデータで FIND を実行して スペルミスがないことを確認します。

表計算ツールを使った修正例

SQLを使った修正例

プロジェクトの全体像を把握する

これは、実際に解決すべき ビジネス上の課題や プロジェクト全体の目標に 焦点を当てるとともに 課題を解決し、目標を達成するための データが実際にあると 確認する機会でもあります。

プロジェクトは時としてリセットし、全体像を 見直す時間を取ることが重要です。 なぜならプロジェクトは気づかないうちに いつのまにか 進化したり、 変化したりすることがあるためです。

  • 例えば、ある e コマース企業が 商品の改善に役立つ情報を得るため 1,000 人の顧客を対象に アンケートを実施するとします。 しかし回答が集まり始めると、 顧客が e コマースの Web サイト、つまり プラットフォーム自体に不満を抱いている、 というコメントが多いと気づきます。 そこで、アナリストはそこに着目し始めます。 もちろん、顧客の購買体験は e コマースビジネスにとって重要ですが、 それはプロジェクトの本来の目的ではありません。 この場合、アナリストは一旦立ち止まって 焦点を合わせ直し、本来の課題解決に 立ち戻る必要があります。

プロジェクトの全体像を把握するには、 次の 3 つのことが必要です。

  • データを使って解決したい ビジネス上の課題を考える
    • 課題を見失ったままでは どのデータが分析に適しているのかが わかりません。 課題ファーストで分析に取り組むことは どのプロジェクトのどの段階でも重要です。 そのデータが、実際にビジネスの課題解決を 可能にするものか、 確認する必要があるのです。
  • プロジェクトの目標を 考慮する
    • 商品に関する顧客のフィードバックを 分析したい、というだけでは 十分ではありません。 本当に必要なのは、フィードバックを得て その商品を改良すること、 これこそが目的なのです。 そのうえで収集、クリーニングしたデータが 実際にその目標の達成に役立つもので あるかどうか、知る必要があります。
  • そのデータが課題を解決し、 プロジェクトの目的を達成できるもので あるかどうかを検討する
    • データがどこから来たのか考え データ収集とクリーニングの プロセスをテストするのです。

データアナリストは時々 自分のデータに慣れすぎて 何かを見落としたり、思い込みが 激しくなったりすることがあります。

そのため、この段階でチームメンバーに 新たな視点でデータを見直してもらい 他の人からフィードバックを 得ることが非常に重要です。

またこの段階では、データの中に 不審な点や問題のありそうな点がないか 気づくこともできます。 もう一度、一歩下がって全体像を把握し 「この数字は意味があるのか」 と 自問してみましょう。

  • e コマースの例に戻りましょう。 データアナリストが、顧客満足度調査の クリーンアップされたデータを レビューしているとします。 アンケートはもともと 1,000 人の顧客に 送られたものですが、もしデータの中に 1,000 人以上の回答があることを 発見したらどうなるでしょうか? これは、一人の顧客がアンケートに複数回 答える方法を見つけた、という ことかもしれません。 あるいは、データクリーニングの プロセスで何か問題が発生し フィールドが重複していた 可能性もあります。 いずれにせよこれは データクリーニングプロセスに戻って 問題を修正するべきであることを 示すサインです。

データの検証は、 分析から得られるインサイトを 信頼できるものにします。 企業が大きな間違いを避けるための、 データクリーニングの重要な部分です。 これもまた、データアナリストの 腕の見せ所です。

チェックリスト

よくある問題の特定と修正ができているか、確認しましょう。以下はその例です。

  • エラーの発生源: データセットに含まれるエラーの原因を見つけるために、適切なツールや関数を使用しましたか?
  • NULL: 条件付き書式やフィルターを使用してNULLを検索しましたか?
  • 単語のスペルミス: スペルミスはすべて特定しましたか?
  • 数字の入力間違い: 数字が正しく入力されているか、ダブルチェックしましたか?
  • 余分なスペースや文字: TRIM で余分なスペースや文字を削除しましたか?
  • 重複: Remove Duplicates 関数や SQL の DISTINCT を使って、重複を削除しましたか?
  • データ型の不一致: 数値、日付、文字列のデータが正しく入力されているか確認しましたか?
  • 文字列の乱れ(矛盾): すべての文字列が一貫性を持ち、意味のあるものであると確認しましたか?
  • 日付のフォーマットの乱れ(矛盾): データセット全体で一貫した日付のフォーマットが保たれていますか?
  • 誤解を招く変数ラベル(列): 列の名前は適切なものですか?
  • データの切り捨て: 修正すべきデータの切り捨てや、欠落がないか確認しましたか?
  • ビジネスの論理性: ビジネスに関する知識に基づいて、データが意味をなしているか確認しましたか?
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?