背景
データ分析に関心を持つ中で、多くの企業が分析の前のデータ分析基盤を構築することが出来ていない事を知る。
よくわかんない単語とサービスばっかりだったので、学びのアウトプットとして作成する。
データに関心あるけど、あんまりイメージわかないなって方の力になれたら嬉しい。
用語
大きな流れとしてはデータ分析基盤を構築→BIツールで可視化が多いみたい。
逆でもできるが、きれいな進め方としては上記。
下記に学んだ用語と意味を羅列していく。
データ分析基盤
そもそものデータを分析する前の、下記の役割を担う総称。
- データを取得する。
- データを保存しておく。
- RDBとの違いは、テーブルデータのような構造化していないデータでなくてもいけちゃう。
- 画像や音声ファイルなど
- csvなどのテキストデータもいけちゃう。
- RDBとの違いは、テーブルデータのような構造化していないデータでなくてもいけちゃう。
- データの処理をする。
- データをきれいにするよ。
- 処理したデータを保存しておく。
- 汚いデータと混ぜちゃうと使いづらくなっちゃうからね。
データレイク
データ分析基盤の「データの保存をしておく」場所、サービスの総称。
生データやそれに近いデータが格納されている。
代表サービス:AWS S3、Google Cloud Strageなど
ETL
データをきれいにするよ!の作業やサービスの総称。
代表サービス:AWS Glue、Google Cloud Dataflowなど
データウェアハウス
きれいめなデータの保存場所。
代表サービス:Amazon Redshift、Google BigQuery、Snowflakeなど
BIツール
きれいなデータをグラフや図でわかりやすく見せる。
代表サービス:Tableau、Microsoft Power BI、Lookerなど
メタデータ
「このデータどんなデータ?」を教えてくれる情報の総称。
例:int型、カラム名など
Data Catalog(AWS Glue)
メタデータを伝えてくれるAWS Glueの機能の一つ。
Crawlers(AWS Glue)
データを取りに行ってくれるAWS Glueの機能の一つ。
Jobs(AWS Glue)
Data Catalogに沿ってデータを変換して、変換後のデータを保存してくれるAWS Glueの機能の一つ。
これから
まだまだわからないことがたくさん出そうなので、随時インプットしていく。
個人的には全くわかんなかったAWSのサービスが少しずつ分かってきて、楽しい。
一つずつ学んでいこうと思います。