はじめに
本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。
ROCCC
データソースを特定する方法について 学ぶ必要があります。 私はこのプロセスを ROCCCと呼んでいます。
- R は 信頼性(Reliable) を 意味します。 良い友人と同じように、 良いデータソースは信頼できるものです。 このデータによって、 正確かつ完全で偏りがなく、 吟味され、使用に適したものであると 証明された バイアスのない 情報を得ることができます。
- O は 独自性(Original) を意味します。 あなたは、セカンドパーティ、 サードパーティの ソースを通して データを見つける可能性が高いです。 扱っているのが「良きデータ」 であると確認するため、 必ず独自のソースで検証してください。
- 最初の C は、 包括的である(Comprehensive) という意味です。 最も優れたデータソースには、 問いかけに答えたり、 解決策を見つけたりするために必要かつ 重要な情報がすべて含まれています。 このように考えてみましょう。 ネットである会社の 素晴らしいレビューを見たからといって その会社で働きたいとは思わないでしょう。 自分が合うかどうか知るため その会社のあらゆる面を調べますよね。 データ分析でも 同じようにすることが大切です。
- 次の C は、 最新(Current) です。 データの有用性は、 時間が経つにつれて低下します。 例えば、今いる顧客全員を ビジネスイベントに招待しようと思った時 10 年前の顧客リストは使わないでしょう。 データも同じです。 最適なデータソースは、最新のものであり、 目の前のタスクに 関連するものであるべきです。
- 最後の C は 引用(Cited) です。 ある映画の続編公開について どこで知ったかを 友人に話したことがあるなら、 それは出典を引用している、 ということになります。 引用をすることで、 あなたが提供する情報の 信頼性が高まります。
データソースを選ぶときは、 次の 3 つのことを考えてください。
- そのデータセットを作成したのは誰か?
- 信頼できる組織が作成したものか?
- データが最後に更新されたのはいつか?
です。 信頼できる組織から提供された 独自のデータがあり、 それが包括的で最新かつ引用元があれば、 それは ROCCC です。 良きデータが揃っている 場所はたくさんあります。 ベストなのは、 吟味された公開データセット、 学術論文、財務データ、 政府機関のデータなどです。
不良データとは
ROCCC ではないデータソース、 つまり「不良データソース」について考えてみましょう。 言い換えれば、信頼性が低く、 独自性がなく、 包括的でもなければ最新でもない、 そして引用元のないデータです。
- この場合の R は not Reliable、 信頼できないという意味です。 不正確、不完全、バイアスがかかっている などの理由で信頼できないデータを指します。 あるいは母集団全体を反映しておらず サンプル選択にバイアスがある データかもしれません。 また、データ ビジュアライゼーションや グラフが誤解を招くものかもしれません。 例えば、次の 2 つの棒グラフを 見てください。 左の図は Y 軸の始点を 3.14% としており、 右の図は 0 としています。 一見すると、 4 年間で金利が急上昇したようにも 感じますが、実際にはほぼ横ばいです。
-
そして、次は O です。 この O は not Original、 独自性がないことを意味します。 元のデータソースが見つからず、 サードパーティや セカンドパーティの情報に頼っている場合、 データを理解するのに特別な注意が 必要であることを示しています。
-
次に、C は not Comprehensive、つまり 包括的でないという意味になります。 不良データソースには問いかけに答えたり、 解決策を見つけたりするのに必要な 重要な情報が欠落しています。 さらに悪いことに、ヒューマンエラーも 含まれている可能性があります。
-
次の C は not Current、最新でない、です。 不良データソースは古く、関連性がありません。 多くの信頼できるデータソースは、 定期的にデータを更新しているため、 活用に適し、かつ最新の情報である という安心感があります。 例えば、アメリカ合衆国政府の オープンデータを公開している Data.gov は、常に信頼できる データソースです。
-
最後の C は not Cited、つまり 引用元がないことを意味します。 引用元がない、あるいは 吟味されていない情報源は、 使ってはいけません。優れた解決策は、悪いデータを 避けることによって生まれます。 良きデータを得るには、 吟味された公開データセットや 学術論文、財務データ、 政府機関のデータなどにこだわることです。