はじめに
本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

メタデータとは
メタデータは写真や メールに含まれる データを説明するための情報です。 メタデータはデータそのものではない、 ということに注意しましょう。 むしろ、
『データに関するデータである』
といえばわかりやすいでしょうか。
データアナリティクスでは、 メタデータはデータアナリストが データベース内のデータの内容を 解釈するのに役立ちます。 これが、データベースを扱う際に メタデータが非常に重要な理由です。
日常の例
メタデータは抽象的な概念ですが まずは簡単な、日常の例から 始めていきましょう。
写真
スマートフォンで写真を撮るたびに その写真の中に データが自動的に収集され 保存されていることを 皆さんはご存知でしょうか? 実際に見てみましょう。 パソコンで好きな写真を選んでください。 これは私の友人の犬、 ルディとマチルダのかわいい写真です。 写真上で右クリックし「詳細を見る」 または「プロパティ」を選択します。すると、写真のメタデータが 表示されます。 ファイルの種類や 撮影日時、撮影場所、 撮影に使用したデバイスなど さまざまな情報が表示されます。 すごいですよね。

メール
メールを送受信するとき そのメッセージと一緒に メタデータが送信されます。 メタデータは「オリジナルを表示」 または「メッセージの詳細を表示」を クリックすると表示されます。メールのメタデータには件名、 差出人や宛先、 送信日時が含まれています。 さらに、送信者が 「送信」ボタンを押してから、 どれくらいの時間で 送信されたかもわかります。

メタデータの種類
データアナリストが よく目にするメタデータには 3 種類があります。
記述メタデータ
これは データの断片を 説明し、後にそれを 識別するのに使えるメタデータです。
- 例えば、図書館にある本の 記述メタデータには その本の背表紙に記載されている 固有の国際標準図書番号、 ISBN とも呼ばれるコードが 含まれます。

構造メタデータ
これは、データの一部が どのように整理されているか、 1 つ、あるいは 複数のデータコレクションに 属しているかを示すメタデータです。
- 例えば、 本のどのページをまとめて 1 つの章とするか、といったもの が挙げられます。

構造メタデータも、 2 つの関連性、相互関係が 記録されているかどうかが ポイントになります。
- 例えば、デジタル化された 書籍の原稿が、実は 印刷版書籍の原版であった、と 示すといったことなどが その例です。
管理メタデータ
これは ファイルやコンテンツなどといった デジタル資産の出所や、管理に必要な 情報に関するメタデータです。
- 先ほど、写真に関するメタデータを 見ましたね。 あれが管理メタデータです。 管理メタデータには ファイルの種類や 撮影日時、その他多くの情報が 含まれています。
メタデータの構成要素
- タイトルと説明
- 調べようとしているファイルやウェブサイトの名前は何か、どのようなタイプの情報が格納されているか など
- タグとカテゴリー
- データの概要は何か、特定の形式でインデックス化・説明されているか など
- 誰が、いつ作成したか
- データは誰がいつ作成したのか、最近のものか、それとも以前から存在していたものか など
- 誰が、いつ、最後に修正したか
- データには何らかの変更が加えられたか、その変更は最近のものか など
- 誰がアクセス・更新できるか
- 一般公開されているデータセットか、データセットをカスタマイズしたり変更したりするために特別な権限が必要か など
メタデータの例
- 写真
- カメラで写真を撮影した際、カメラのファイル名、日付、時刻、撮影場所などのメタデータが収集され、写真と一緒に保存されます。
- Eメール
- 電子メールを送受信する際、件名、送信者、受信者、送信日時など、目に見えるメタデータも多数存在します。一方で、サーバー名、IP アドレス、HTML フォーマット、ソフトウェアの詳細など、目に見えないメタデータも存在します。
- スプレットシート・文書ファイル
- スプレッドシートや文書ファイル内には、すでに相当量のデータが含まれているため、当然、その中にもメタデータが存在しています。タイトル、著者、作成日、ページ数、ユーザーのコメント、タブ、表、列の名前などが、スプレッドシートや文書ファイルに含まれるメタデータです。
- ウェブサイト
- すべてのウェブサイト上のページには、タグやカテゴリー、サイト作成者の名前、ウェブページのタイトルと説明、作成時刻、任意のアイコンなど、基本となるさまざまなメタデータが存在しています。
- 電子ファイル
- 一般的に、コンピューター上のファイルを右クリックすると、ファイルのメタデータが表示されます。主に、ファイル名、ファイルサイズ、作成日、変更日、ファイルの種類などで構成されるものがメタデータです。
データの内容や文脈、構造などを知ることは、データアナリストとしてのキャリアにおいて非常に大切なことです。データを分析する際には、常に全体像を把握することが重要です。また、目に見えているデータだけでなく、そのデータの背景を知ることも求められます。
データアナリストとしてのメタデータの活用
コンテキストに 当てはめる
課題解決や、ビジネス上の意思決定に データを効果的に役立てるためには データを識別し、 説明する必要があります。 データをコンテキストに 当てはめることは おそらくメタデータでできる 最も価値のあることのうちの一つですが メタデータを使用するメリットは それだけではありません。
一貫性と均一性を保つ
メタデータは、 物事の一貫性と均一性を保つことで いわば事実のソースを 作り出します。 均一なデータとは 整理、分類、保存、アクセス、そして 効果的な活用を可能にしてくれるのです。 データベースに一貫性があれば その中のデータと、 他のデータとの関連性を 見出すことが非常に、簡単に できるようになります。 メタデータで正確性、精密性、 関連性、適時性を 確認することで、 データを信頼できるかわかります。 また、問題が発生したさい データアナリストが根本的原因を 特定しやすく してくれるものでもあります。 要するに、扱うデータの品質が高ければ 作業がしやすくなり、それによって 得られる結果の質も向上する、 ということです。
メタデータリポジトリ
データアナリストが データの一貫性と信頼性を確保するための 1 つの方法に メタデータリポジトリと 呼ばれるものがあります。 メタデータリポジトリは メタデータを保存するために 特別に作られたデータベースです。 メタデータレポジトリは、どこか 物理的な場所に保存されることもあれば クラウドに存在するデータのように 仮想の場所に保存されることもあります。
- メタデータが どこから来たのかを示し 素早く簡単に使えるよう アクセス可能な状態に保つ。
- メタデータを必要とする あらゆる人たちのために それらを共通の構造で 維持してくれる。
- データ分析のために必要な 複数のソースをより簡単かつ迅速に まとめられるようにしてくれる。
- メタデータの状態や場所、 内部のテーブル構造、 リポジトリ内のデータの流れなどを 示してくれる。
- 誰がいつメタデータに アクセスしたかの記録も可能。
一つ、実例をご紹介しましょう。 私は、Google の ヘルスケア アナリストとして セカンドパーティ データと サードパーティ データを活用しています。
- セカンドパーティ データとは あるグループがユーザーから 直接収集し、販売するデータのことです。
- サードパーティ データは そのデータの最初の収集者ではない 外部ソースから入手するものです。 その外部ソースはデータを ウェブサイトやプログラムから取得しますが それらはそのデータの生成元である 他のプラットフォームからのものです。
覚えておいていただきたいのは サードパーティ データは 自身のビジネスや内部から 得られるものではない、ということです。 たとえば、私のチームが Google で作成されたものではない データを扱う必要があるとき、 その品質や信頼性について あまりよくわからない、 ということが起こります。 しかし私たちは、データが信頼でき 責任を持って収集されたものである、 ということを確信せねばなりません。 もしその外部データが 信頼できないものであれば 私たちが得られる結果も 信頼できないものになりかねません。 そのため、外部データベースの メタデータについて理解することは 非常に重要なのです。 メタデータは、データがクリーンで 正確で適切、かつタイムリーであることを 確認するためのものです。 これは、データが 他の組織からのものである場合には 特に重要です。
サードパーティ データを自社のデータと統合するプロセスを成功するために必要なアクションとして、メタデータを活用することにより、企業はデータの標準化、サードパーティー データの品質や信頼性の評価ができます。
許可されているかどうかの確認
外部データを利用する際の もう一つの重要なステップは そのデータの利用が 許可されているかどうかの確認です。 私たちはよく データの所有者に連絡を取り アクセスや購入が可能かどうか 確認することがあります。
メタデータを管理する
メタデータとメタデータ リポジトリは データアナリストが使う ツールのなかでも非常に便利なものです。 データアナリストはそれらで ひとつの事実のソースをまとめたり データの一貫性と均一性を保ったり 扱うデータの正確性、精密性、 関連性、適時性を 担保したりすることができます。 また、これらのツールは プロセスの標準化にも役立つため データへのアクセスや利用が しやすくなります。
世の中のデータ量は増え続けていますが その一方で、 多くの企業が データを活用できていないのが現状です。 自分が持っているデータを 知らなかったり、 見つけられなかったり、あるいは 単に信用できなかったりしています。 特に大企業では、データが数多くの 異なるプロセスやシステムに またがっていることがあります。 多くの場所からデータを集めることは 大変な作業になりえます。
- 例えば、ある企業がオフィスに 従来のデータストレージ システムを 導入し、使用を始めたとします。 しかし、所有するデータの量が 増えてくるにつれて、 クラウドストレージも必要になってきます。 さらに、この企業がパートナー企業の 第 2、第 3 のデータにアクセスし、 利用することも考えられます。 これらのシステムには それぞれ独自のルールや要件があるため、 データの整理方法はそれぞれ 全く異なり、 さらに複雑さを増していきます。 多くの組織が、適切なタイミングで 適切なデータを見つけるのに 苦労するのも無理はありません。
標準化された情報を得るための方法
一方、メタデータは 単一の、中枢となる場所に保存されるため 企業はすべてのデータについて 標準化された情報を得ることができます。 これには 2 つの方法があります。
- メタデータには 各システムがどこにあり、 それらのシステム内のデータセットが どこにあるのかという情報が 含まれています。
- メタデータは すべてのデータが さまざまなシステム間で どう接続されているかを記しています。

データガバナンス
『企業のデータ資産の 正式な管理を保証する プロセスのこと』
これがあることで、組織はデータを より適切に管理できるようになります。
また、データにまつわる
- セキュリティとプライバシー
- 完全性
- ユーザビリティ
- 内部および外部のデータフローに関する 課題
を管理しやすくなります。
ここで重要なのは データガバナンスとは 単に用語や手順を標準化するだけの ものではない、ということです。 これは、日々メタデータを扱う人々の 役割であり、責任でもあります。
メタデータ アナリスト
メタデータ アナリストは 企業データを整理、管理し 可能な限り高い品質を保証します。
- 基本的なメタデータを判別する。
- 探し出した情報をまとる。
- 異なるデータセット間の連携や 様々なデータの種類を説明する。
- 誰もが参照すべき非常に重要な規格や データを整理するための モデルを作成する。
彼らは、同僚やステークホルダーと データを共有し、 データを利用しやすくすることに 熱意をもって取り組んでいます。
