LoginSignup
20
22

データ系の用語についてまとめてみる

Last updated at Posted at 2023-09-09

背景

データ分析に関心を持つ中で、多くの企業が分析の前のデータ分析基盤を構築することが出来ていない事を知る。
よくわかんない単語とサービスばっかりだったので、学びのアウトプットとして作成する。

データに関心あるけど、あんまりイメージわかないなって方の力になれたら嬉しい。

用語

大きな流れとしてはデータ分析基盤を構築→BIツールで可視化が多いみたい。
逆でもできるが、きれいな進め方としては上記。

下記に学んだ用語と意味を羅列していく。

データ分析基盤

そもそものデータを分析する前の、下記の役割を担う総称。

  • データを取得する。
  • データを保存しておく。
    • RDBとの違いは、テーブルデータのような構造化していないデータでなくてもいけちゃう。
      • 画像や音声ファイルなど
      • csvなどのテキストデータもいけちゃう。
  • データの処理をする。
    • データをきれいにするよ。
  • 処理したデータを保存しておく。
    • 汚いデータと混ぜちゃうと使いづらくなっちゃうからね。

データレイク

データ分析基盤の「データの保存をしておく」場所、サービスの総称。
生データやそれに近いデータが格納されている。

代表サービス:AWS S3、Google Cloud Strageなど

ETL

データをきれいにするよ!の作業やサービスの総称。

代表サービス:AWS Glue、Google Cloud Dataflowなど

データウェアハウス

きれいめなデータの保存場所。

代表サービス:Amazon Redshift、Google BigQuery、Snowflakeなど

BIツール

きれいなデータをグラフや図でわかりやすく見せる。

代表サービス:Tableau、Microsoft Power BI、Lookerなど

メタデータ

「このデータどんなデータ?」を教えてくれる情報の総称。

例:int型、カラム名など

Data Catalog(AWS Glue)

メタデータを伝えてくれるAWS Glueの機能の一つ。

Crawlers(AWS Glue)

データを取りに行ってくれるAWS Glueの機能の一つ。

Jobs(AWS Glue)

Data Catalogに沿ってデータを変換して、変換後のデータを保存してくれるAWS Glueの機能の一つ。

これから

まだまだわからないことがたくさん出そうなので、随時インプットしていく。
個人的には全くわかんなかったAWSのサービスが少しずつ分かってきて、楽しい。

一つずつ学んでいこうと思います。

20
22
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
20
22