0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Googleデータアナリティクス:データの信頼性を追求する(ROCCCプロセス)

Last updated at Posted at 2023-04-10

はじめに

本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

ROCCC

データソースを特定する方法について 学ぶ必要があります。 私はこのプロセスを ROCCCと呼んでいます。

  • R は 信頼性(Reliable) を 意味します。 良い友人と同じように、 良いデータソースは信頼できるものです。 このデータによって、 正確かつ完全で偏りがなく、 吟味され、使用に適したものであると 証明された バイアスのない 情報を得ることができます。
  • O は 独自性(Original) を意味します。 あなたは、セカンドパーティ、 サードパーティの ソースを通して データを見つける可能性が高いです。 扱っているのが「良きデータ」 であると確認するため、 必ず独自のソースで検証してください。
  • 最初の C は、 包括的である(Comprehensive) という意味です。 最も優れたデータソースには、 問いかけに答えたり、 解決策を見つけたりするために必要かつ 重要な情報がすべて含まれています。 このように考えてみましょう。 ネットである会社の 素晴らしいレビューを見たからといって その会社で働きたいとは思わないでしょう。 自分が合うかどうか知るため その会社のあらゆる面を調べますよね。 データ分析でも 同じようにすることが大切です。
  • 次の C は、 最新(Current) です。 データの有用性は、 時間が経つにつれて低下します。 例えば、今いる顧客全員を ビジネスイベントに招待しようと思った時 10 年前の顧客リストは使わないでしょう。 データも同じです。 最適なデータソースは、最新のものであり、 目の前のタスクに 関連するものであるべきです。
  • 最後の C は 引用(Cited) です。 ある映画の続編公開について どこで知ったかを 友人に話したことがあるなら、 それは出典を引用している、 ということになります。 引用をすることで、 あなたが提供する情報の 信頼性が高まります。

データソースを選ぶときは、 次の 3 つのことを考えてください。

  • そのデータセットを作成したのは誰か?
  • 信頼できる組織が作成したものか?
  • データが最後に更新されたのはいつか?

です。 信頼できる組織から提供された 独自のデータがあり、 それが包括的で最新かつ引用元があれば、 それは ROCCC です。 良きデータが揃っている 場所はたくさんあります。 ベストなのは、 吟味された公開データセット、 学術論文、財務データ、 政府機関のデータなどです。

不良データとは

ROCCC ではないデータソース、 つまり「不良データソース」について考えてみましょう。 言い換えれば、信頼性が低く、 独自性がなく、 包括的でもなければ最新でもない、 そして引用元のないデータです。

  • この場合の R は not Reliable、 信頼できないという意味です。 不正確、不完全、バイアスがかかっている などの理由で信頼できないデータを指します。 あるいは母集団全体を反映しておらず サンプル選択にバイアスがある データかもしれません。 また、データ ビジュアライゼーションや グラフが誤解を招くものかもしれません。 例えば、次の 2 つの棒グラフを 見てください。 左の図は Y 軸の始点を 3.14% としており、 右の図は 0 としています。 一見すると、 4 年間で金利が急上昇したようにも 感じますが、実際にはほぼ横ばいです。
  • そして、次は O です。 この O は not Original、 独自性がないことを意味します。 元のデータソースが見つからず、 サードパーティや セカンドパーティの情報に頼っている場合、 データを理解するのに特別な注意が 必要であることを示しています。

  • 次に、C は not Comprehensive、つまり 包括的でないという意味になります。 不良データソースには問いかけに答えたり、 解決策を見つけたりするのに必要な 重要な情報が欠落しています。 さらに悪いことに、ヒューマンエラーも 含まれている可能性があります。

  • 次の C は not Current、最新でない、です。 不良データソースは古く、関連性がありません。 多くの信頼できるデータソースは、 定期的にデータを更新しているため、 活用に適し、かつ最新の情報である という安心感があります。 例えば、アメリカ合衆国政府の オープンデータを公開している Data.gov は、常に信頼できる データソースです。

  • 最後の C は not Cited、つまり 引用元がないことを意味します。 引用元がない、あるいは 吟味されていない情報源は、 使ってはいけません。優れた解決策は、悪いデータを 避けることによって生まれます。 良きデータを得るには、 吟味された公開データセットや 学術論文、財務データ、 政府機関のデータなどにこだわることです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?