はじめに
本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

データのライフサイクル
データ ライフサイクルには 6 つのステージがあります。
ステージ | 内容 |
---|---|
計画 | どのようなデータが必要なのか、どのように管理するのか、誰が責任を持つのかを決める。 |
取得 | さまざまな異なるソースからデータを収集または取り込む。 |
管理 | データを維持、管理する。保管方法、保管場所、保管ツールの決定も含む。 |
分析 | データを使って問題を解決し、意思決定を行い、ビジネス上の目標をサポートする。 |
保管 | 関連するデータを長期的かつ将来的に参照できるように保存しておく。 |
破棄 | ストレージからデータを削除し、共有コピーもすべて削除する。 |

計画
実はこのフェーズは分析プロジェクト開始より だいぶ前に実施されます。 計画フェーズでは必要なデータと それをライフサイクル全体を通じて 管理する方法、 責任者、そしてベストな結果は何かを 決定します。
具体的に、電力会社が、顧客が電気を 節約できるようにするための インサイトを得ようとする例で 考えてみましょう。

- 計画フェーズでは、 顧客の年間電力消費量、 電気が使われている建物の種類、 屋内の電気製品について情報を得たいと 判断します。
- 次に電力会社は データの収集、保管、 共有について各担当者を決めます。 これらすべてが計画フェーズでの作業になり、 その後のプロジェクトの基礎となります。
取得
このフェーズでは さまざまな情報源からデータを集め 組織内に取り込みます。 日々発生する膨大なデータを 集める方法は数え切れません。 外部のリソースからデータを取得する方法が 一般的です。
例をご紹介します。 天気情報についてデータ分析する場合、 そのデータは 政府の気象データセンターなど一般公開された データベースから取り込むことになるでしょう。 他にも、自社のドキュメントやファイル からデータを取得することも考えられます。 一般的にはデータベース化されているはずです。

ここで想定している電力会社の場合、
- 自社データベースで管理している 顧客の電力消費データを使って調査する ことを考えるでしょう。
顧客情報データベースを運用する場合、 データの整合性、 信頼性、プライバシーをすべて担保するのが 大事です。 データを取得したことにします。
管理
ここではデータをきちんと管理する方法、 どこにどう保存するか、 安全でセキュアな状態に保つためのツール、 適切な管理を確実に行う手段について 考えていきます。
分析
データ アナリストの腕の見せ所です。 このフェーズでは、 課題を解決し、重要な決断をし、 ビジネスの目標達成のために データを駆使します。
例えば、先の電力会社の目標でいうと
- 顧客の電力節約をサポートする 方法を見つけること、かもしれません。
保管
保管とは、 今後使わないかもしれないデータを 常に利用可能な場所に保管しておくことです。 分析フェーズではアナリストは膨大な量の データを処理します。 そこでもし、 存在はするものの目下の作業には役に立たない データまで仕分けなければならないとしたら、 大変なことになるでしょう。 そんなデータは手元に置いておかずに、 アーカイブしてしまいましょう。

破棄
また電力会社の例に戻りましょう。
- データは複数のハードドライブに 保管されているはずです。 このデータを破棄する場合、 セキュアなデータ消去ソフトウェアが使われます。 他に紙の資料があれば、 それもシュレッダーにかけます。 この作業は自社情報だけでなく、 顧客の個人情報を保護する上でも大切です。