0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Googleデータアナリティクス:データ検証プロセス

Posted at

はじめに

本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

確認、そして再確認

データ検証プロセスは データクリーニングの一種ですが 分析全体を通じて行う必要があります。 このプロセスでは、データの品質をチェックし 再確認することで、

  • 完全性
  • 正確性
  • 安全性
  • 一貫性

を確保します。

データを理解し、 それがクリーンであることを確認し ビジネス上の目的に沿ったものであると 確認する必要もあります。 言い換えれば、データが意味を持つようにする、 ということでもあります。

時間と経験を重ねれば、ビジネスの知識は 身につく、ということを覚えておきましょう。 もう一つ、プロからのアドバイスです。 必要なときにできるだけ 多くの問いかけをすることで この作業はずっと楽になります。

例1

ある家具販売店のデータを分析するとします。 販売価格列の値が常に、販売個数×商品価格と 等しいことを確認したいと思います。 そこで、新しい列に数式を追加し 掛け算をすることで、販売価格を再計算します。

合計を比較すると、少なくとも 1 つ 販売価格列の値と一致しない値があります。 分析を進めるためには、 その答えを見つけなければなりません。

調査したり人に聞いてみたりしたところ、 商品を 5 個以上買うと 30% 割引になることがわかりました。 もしこれを確認していなかったら 完全に見逃していたかもしれません。

データアナリストの仕事は、計算が重要だと よくわかりましたね。 計算をするときはいつも 正しい方法で計算したかを 確認することが大切です。

例2

例えば、平日しか営業していない企業で 店頭プロモーションの効果を分析する場合について 考えてみましょう。

その際には 土日の売上データがないことを確認するでしょう。 もし土日の売上データがあったとしても、 それはデータ自体の問題ではなく 問題でさえない場合もあります。 何か理由があるはずでしょう。 もしかすると土日に特別なイベントを 開催しているかもしれません。 その場合、その週末の売上があるはずです。 それでも、平日だけを見るのであれば 週末の売上は 分析から除外した方がいいかもしれません。 このようなデータ検証を行うことで 計算ミスや分析の誤りを 防げる可能性があります。

どのような分析ツールを使っていても、 データ検証は必ず行うようにしましょう。

データ検証の種類

データ型

項目 説明
目的 データがフィールドに定義されたデータ型と一致するかどうかを確認します。
小学校の学年 1 ~ 6 のデータ値は、数値データ型でなければなりません。
制限 データ値 13 はデータ型検証は通過できますが、範囲外の値です。この場合、データ範囲の検証も必要になります。

データ範囲

項目 説明
目的 データがフィールドに定義された値の許容範囲内にあるかを確認します。
小学校の学年のデータ値は 1 から 6 の範囲内でなければなりません。
制限 データ値 5.5 は許容範囲内に含まれ、そして数値データ型としても成立します。しかし、 5.5 という学年は存在しないため、本来許容されるべきではありません。この場合、データ制約の検証も必要になります。

データ制約

項目 説明
目的 データがフィールドの特定の条件または基準を満たしているかを確認します。これには、入力されたデータ型だけでなく、文字数など他の属性も含まれます。
内容の制約:この場合、小学校の学年 1 ~ 6 のデータ値は整数でなければなりません。
制限 データ値 13 は整数なので、内容制約の検証は通過します。しかし、 13 は学年として存在しないため、許容されるべきではありません。この場合、データ範囲の検証も必要になります。

データの一貫性

項目 説明
目的 データが他の関連データのコンテキストで意味をなすか確認します。
製品の出荷日のデータ値は、製造日よりも早くなることはありません。
制限  データの整合性は取れていても、不正確または間違っている場合があります。この場合、出荷日のデータ値が生産日より後であったとしても、不正確である可能性があるということです。

データ構造

項目 説明
目的 データが設定された構造に沿っているか、または適合しているかを確認します。
ウェブページが正しく表示されるためには、設定された構造に沿っている必要があります。
制限 データ構造が正しくても、データそのものが不正確または誤っている場合があります。ウェブページのコンテンツが正しく表示されていても、間違った情報が含まれている可能性があるということです。

コード検証

項目 説明
目的 ユーザーのデータ入力時に、アプリケーションのコードが前述のいずれかの検証を体系的に実行できているかどうかを確認します。
コード検証で発見されるよくある問題として、複数のデータ型が許可されている、データ範囲のチェックが行われていない、テキスト文字列の終了が適切に定義されていない、などがあります。
制限 コード検証では、データ入力で起こりうるすべてのバリエーションを検証できない可能性があります。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?