データエンジニアはデータサイエンティストが、SQLとBIツール使って分析して
問題発見するような仕事の環境回りを整備するのが主な仕事。
なので、直接データサイエンティストみたいな、分析業務に携われないが分析基盤を構築するツールは色々触ってしまうのでちょっと軽く情報整理してみる。
BIツール
Looker
lookerはBIツールで用途としてはAmazon RedshiftやGoogle BigQueryなどのデータソースに接続して、
モデルを生成し、どのようなデータの流れか、分析して可視化する。
- ユースケース
同じBIツールのtableauとの比較になるが、
Lookerはどちらかというと、大規模なDWHを複数人のデータサイエンティストが分析する際に使う。
理由としては、同じテーブルを分析しても、tableauだと、分析する人によって可視化の結果が変わったりするのに対して、Lookerの複数人が分析しても、結果が統一されるため、
tableauは一人や少人数が分析するのに向いてて、
Lookerは対規模で複数人が分析するのに向いている。
参考:looker-vs-tableau (looker公式)
https://ja.looker.com/compare/looker-vs-tableau
参考:Tableau と Looker の比較
https://www.tableau.com/ja-jp/compare/tableau-looker
- LookML
LookMLはLookerで使用されるモデリング言語であり、Lookerを使いたいように環境構築、保守運用するには使いこなせないとならない。使いこなすにはSQLの深い知識が前提で必要な上、LookML独特の記法も覚えなくてはならない。
参考:
https://dev.classmethod.jp/articles/looker-overview/
- 学習方法
Looker公式が学習コンテンツを提供している。
Looker University
https://ja-lpn.looker.com/sdtraining/
https://ja-lpn.looker.com/sdtraining/looker-development-foundations
クラスメゾッドがLooker関連の記事を複数書いているので、それも参考になる。
https://dev.classmethod.jp/tags/looker/
tableau
- ユースケース
BIツールのtableauはLookerより導入が簡単。
環境が出来ればエンジニアじゃない人が触ることもある。
理由としては、同じテーブルを分析しても、tableauだと、分析する人によって可視化の結果が変わったりするのに対して、Lookerの複数人が分析しても、結果が統一されるため、
tableauは一人や少人数が分析するのに向いてて、Lookerは対規模で複数人が分析するのに向いている。
- 学習方法
こちらが参考になる、tableauの資格を取ろうとすることでの学習もあり
https://jtug.jp/2020/11/18/tableau%E3%81%AE%E5%AD%A6%E7%BF%92%E6%96%B9%E6%B3%95/
データサイエンティストを目指す人のための『ゼロからの Tableau 入門』
https://www.udemy.com/course/tableau-x/
re:dash
- 概要:
「Re:dash」とはPythonとJavaScriptで作られたオープンソースBI(Business Intelligence)ツールです。
re:dashはDWHのほうな大きなDWHより、athenaで作った小さなテーブルを分析可視化する用途で使われることが多い。
参考:“あなたの会社をデータ駆動にする”オープンソースBIツール「Re:dash」でSQL分析結果を可視化しよう
https://codezine.jp/article/detail/10472?p=3
データウェアハウス
snowflake
snowflakeはDWHだけ提供しているクラウドサービスである?!
参考:クラウドデータプラットフォームSnowflake
https://solution.insight-lab.co.jp/snowflake#:~:text=%E5%B0%8E%E5%85%A5%E3%83%A1%E3%83%AA%E3%83%83%E3%83%88-,Snowflake%E3%81%A8%E3%81%AF,%E5%9F%BA%E7%9B%A4%E3%82%92%E5%AE%9F%E7%8F%BE%E3%81%97%E3%81%BE%E3%81%99%E3%80%82
BigQuery
- 概要:
大規模データの分析に用いられる、同じDWHのamazon redshiftより高性能とよく言われる。
- 学習方法
BigQuery で学ぶ非エンジニアのための SQL データ分析入門
https://www.udemy.com/course/sql-introduction/
redshift
概要:
Amazon Redshift は、クラウド内でのフルマネージド型、ペタバイトスケールのデータウェアハウスサービスです。数百ギガバイトのデータから開始して、ペタバイト以上まで拡張できます。これにより、お客様のビジネスと顧客のために新しい洞察を得る目的でデータを使用できるようになります。
学習方法:
こちらが参考になる
https://dev.classmethod.jp/articles/cm-advent-calendar-2015-getting-started-again-aws-redshift/
ビッグデータ処理・スケーリング
amazon EMR
用途:
サーバレスデータ統合
AWS Glue
用途:
AWS Glue は、分析、機械学習、アプリケーション開発のためのデータの検出、準備、結合を簡単に行える、サーバーレスデータ統合サービスです。AWS Glue はデータ統合に必要なすべての機能を備えているため、数か月ではなく、数分でデータを分析し、使用可能にします。
つまりどの基盤を作る時にも、データ統合に用いられるため用途が幅広い。
基本的に、s3バケット内データを加工して別のs3バケットに出力するの使い方をする。
- 学習方法
チュートリアル: でMachine Learning 変換を作成するAWS Glue
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/machine-learning-transform-tutorial.html
機械学習基盤
Amazon SageMaker
用途:
Amazon SageMaker は、ML 専用に構築された幅広い一連の機能をまとめて提供することにより、データサイエンティストとデベロッパーが高品質の機械学習 (ML) モデルを迅速に準備、構築、トレーニング、およびデプロイするのを支援します。
参考:
https://aws.amazon.com/jp/sagemaker/
- 学習方法
Amazon SageMaker でモデルをトレーニングする
https://docs.aws.amazon.com/ja_jp/deeplens/latest/dg/deeplens-getting-started-launch-sagemaker.html