はじめに
昨今、発展が目覚ましい生成AIや顧客の購買データ分析などの技術の礎となっているのはデータです。現在ではデータはなくてはならないものになっており、企業の財産である「人」「モノ」「金」に次ぐ第4の資産と言われるようになりました。
私は新卒でデータ基盤を扱う部署に配属されましたが、データについて勉強するうちに今までデータについてなんとなくでしか理解していなかったことに気づきました。また、配属されてわからない用語だらけで、調べて理解しては忘れて、先輩に2回聞いちゃったりといったこともありました。
内容
なので、これまで理解した「データ基盤」に関する以下の入門書を読んだり、ネットで調べたりしたうえで私なりに咀嚼した、データに関する用語の意味をアウトプットしたいと思います。
まだまだ知識は浅いですが、私と同じくデータエンジニアとしてキャリアを始めたばかりの方などの参考になると幸いです。
データとは
パラメータと関係を持つもののことを指すそうです。
例:自分の自転車を認識するとき
- パラメータ
- サドルの高さ
- 傷
- 色
- 関係
- 「この自転車のパラメータ」は「自分の自転車」という関係を持っている
データの種類
構造化データ
データを配置する場所と型が決まっているものです。
表データとも言われます。
RDB(リレーショナルデータベース)が一番わかりやすい例だと思います。
半構造化データ
構造化データの定義である、データの配置場所は決まっているが、データの型が決まっていないデータのこと。
「表で表されていないが、表せなくはないデータのこと」という定義もされます。
▼ 例
- CSVファイル
- JSON
- XML
非構造化データ
データの配置場所や型が決まってないもの。
スキーマ(データの構造の定義)がないものです。
例:PDFや画像
データベース(DB)
大量のデータを決まった形式で構造化したり、整理したものです。
例えば、電話帳や生徒名簿が挙げられます。
データベース=システムチックなものとして認識していたため、これがDBに分類されるのは意外でした。
スキーマ
データに関する用語の中でこの単語が一番理解が進みませんでした。なぜなら使う場面によって意味が変わったからです。
以下の記事が参考になりました。
私が今までで認識したスキーマの意味は以下の2つに分かれます。
1. DBにおけるスキーマはデータの構造の定義のこと。
データを説明するという点で、メタデータと似たニュアンスだと認識しています。
- なんていうテーブルが有るか
- テーブルにはどんなカラムがあるか
- テーブル同士の関係