勉強前イメージ
なんだろう・・・雰囲気カタログだからこんな奴が入ってるよーみたいなやつ?
調査
データカタログ とは
データのカタログで、企業で持っているデータの辞書のようなものです。
近年ビッグデータともいわれていますが、膨大なデータを扱うことが多くなってきました。
大量のデータを収集し活用は進んでいますが、どう管理するかは大きな課題になっています。
データには メタデータ と呼ばれるものがあります。
メタデータとはデータそのものではなく、データに関する情報を記したデータを指します。
例えば文書のデータであれば、
文書の内容ではなく、文書の著者や作成日などがメタデータになります。
そして、データカタログとはそのメタデータを管理するシステムのようなものになります。
メタデータを管理することでデータマネジメントを可能とします。
データカタログのメリデメ
メリット
- 分析スピードの向上
データベースは形式や書式などバラバラなデータが格納されているので膨大なデータから必要なものを取り出すのは大変です。
仕組みがきちんと整備されていれば抽出するのも安易になるので、自ずと分析のスピードも上がります。
- データの信頼性のアップ
必要なデータが無かったり逆にデータがいくつも入ってたりすると正しい分析を行うことができません。
データの管理をすることで、データがないことやデータの重複をすぐに見分けることができ信頼性の向上に繋がります。
デメリット
- 日々更新し続ける必要がある
ユーザのニーズによってデータカタログを整備し続ける必要があります。
不変のものでないのでアップデートが求められます。
- メタデータの作成が必要
新たなデータが追加されたり、逆に変更されたりします。
その際にメタデータを作成する必要があり時間もかかってしまうことがあります。
勉強後イメージ
メタデータ自体の検索もできるようにならないといけないのか