More than 1 year has passed since last update.

データ系の用語についてまとめてみる

Last updated at 2023-09-10Posted at 2023-09-09

背景

データ分析に関心を持つ中で、多くの企業が分析の前のデータ分析基盤を構築することが出来ていない事を知る。
よくわかんない単語とサービスばっかりだったので、学びのアウトプットとして作成する。

データに関心あるけど、あんまりイメージわかないなって方の力になれたら嬉しい。

大きな流れとしてはデータ分析基盤を構築→BIツールで可視化が多いみたい。
逆でもできるが、きれいな進め方としては上記。

下記に学んだ用語と意味を羅列していく。

そもそものデータを分析する前の、下記の役割を担う総称。

データを取得する。
データを保存しておく。
- RDBとの違いは、テーブルデータのような構造化していないデータでなくてもいけちゃう。
  - 画像や音声ファイルなど
  - csvなどのテキストデータもいけちゃう。
データの処理をする。
- データをきれいにするよ。
処理したデータを保存しておく。
- 汚いデータと混ぜちゃうと使いづらくなっちゃうからね。

データ分析基盤の「データの保存をしておく」場所、サービスの総称。
生データやそれに近いデータが格納されている。

代表サービス：AWS S3、Google Cloud Strageなど

データをきれいにするよ！の作業やサービスの総称。

代表サービス：AWS Glue、Google Cloud Dataflowなど

きれいめなデータの保存場所。

代表サービス：Amazon Redshift、Google BigQuery、Snowflakeなど

きれいなデータをグラフや図でわかりやすく見せる。

代表サービス：Tableau、Microsoft Power BI、Lookerなど

「このデータどんなデータ？」を教えてくれる情報の総称。

例：int型、カラム名など

メタデータを伝えてくれるAWS Glueの機能の一つ。

データを取りに行ってくれるAWS Glueの機能の一つ。

Data Catalogに沿ってデータを変換して、変換後のデータを保存してくれるAWS Glueの機能の一つ。

まだまだわからないことがたくさん出そうなので、随時インプットしていく。
個人的には全くわかんなかったAWSのサービスが少しずつ分かってきて、楽しい。

一つずつ学んでいこうと思います。