本記事の位置づけ
下記書籍を用いた輪読会の資料として作成しています。
https://amzn.asia/d/bC6DhKi
今回の対象範囲は、下記のとおりです。
I.Foundation and Building Blocks > 2.The Data Engineering Lifecycle? >
Transformation, Serving Data
本編
Trasformation
- Trasformationとは、Downstreamのためにオリジナルからデータを変化させることである
- Ingestionの直後から、下記を実施する。
- Ingestionされたデータの型変換(numeric, string etc)
- 標準的なフォーマットにレコードを変換
- 悪いレコード(bad one)を除去する
- データスキーマをtransform
- 標準化をする
- transformationを考える際、下記のような点を考慮すると良い
- 投資によるリターンの(ROI)は?またビジネス上の価値は?
- transformationはできる限りシンプルで、self-isolated(隔離)できるか?
- どのビジネスルールをサポートするか?(よく意味が分からん)
- バッチや処理中(stream in flight)にtransformすることができる。バッチが圧倒的に人気だが、streaming dataの量の増加などを鑑みると今後streamが増加し、バッチ処理を完全に代替することになるだろう。
- Business logicがtransformationのメジャーなドライバーになる。
- 例えば小売業だと、CFOが財務について分かりたい場合には、単価や合計金額の他に会計ルールを追加した方が良い)
- 特徴量化はまた違うtransformationの処理だろう。
- 特徴量化とは、MLモデルの学習に役立つデータの特徴を抽出し、強化することを意図している。黒魔術(ドメイン知識とデータサイエンスの知識が融合する)ともいえる。
- データサイエンティストが特徴量化の手法を決めれば、エンジニアが自動化する。
- transformationは深い。chap8で掘り下げる。
Serving data
-
it's time to "get value"
-
クエリなどされていないデータは不活性化されるだけであり、データ虚栄プロジェクトは企業にとって大きなリスクである。
-
データの活用に関して、人気な手法を列挙すると、分析、ML、リバース、ETLである。
-
-
Business intelligence
- BIは元のデータを処理するにはビジネスのロジックが必要
- transformation時にもビジネスロジックは適用されるが、logic-on-read(データを読む際にロジックを使う?)もますます人気に
- BIシステムは、data warehouseをクエリするために使用され、レポートやダッシュボードがビジネスロジックや定義のに沿うことができる。
- 企業のデータが成熟してくると、アドホックな分析からセルフサービスへと移行し、データアクセスが民主化される。
- ただし、セルフサービス化を実務的に成功させることは難しく、技術の不足などがしばしば障害になる。
-
Operational Analysis
- オペレーションのきめ細かな詳細に焦点を当て、レポートのユーザーが即座に行動できるようなアクションを促進する。
- 棚卸資産のライブビューや、websiteのリアルタイムダッシュボードなど。
- BIとの違いは現在に焦点をあて、時系列のトレンドなどは必要ないこと。
-
Embedded analytics(組み込み分析)
- レポートのリクエストとそれに対応する負荷が劇的に増加し、これがアクセスコントロールを複雑化させている(例えば会計ソフトでいうと、新しい仕訳が入ることにレポートviewを更新するから?)
- アクセスコントロールの複雑化というのは、例えば他社のデータが見えてしまうと、信頼を著しく損ねる。
- テナントやデータレベルでセキュリティを適用する必要がある。
-
Multitenancy(マルチテナント)
- (ググった内容)マルチテナントとは、SaaSやASPサービスなどのように、同一のシステムやサービスを、無関係な複数のユーザー(企業や個人)で共有するモデルを指します。
- データ・エンジニアには、絶対的なデータ・セキュリティと分離を確実にするために、導入するシステムのマルチテナントの細かな点を理解する義務がある
-
学んだ単語
inert - 不活性な
overwhelmingly - 圧倒的に
ubiquitou - 遍在する、至る所[広くあちこち]に存在する
data wrangling - 簡単にデータにアクセスして分析できるように、乱雑で複雑なデータセットを整理して統合するプロセスのこと
we cannot do it justice - 正当に評価できない
delve - 掘り下げる
get tangled - 巻き込まれる、絡まる(ラプンツェルの英語名と同じ)
increasingly - ますます、だんだん
pull off - 成功させる
get in the way of - 障害になる
radius - 半径、範囲
unify - 統一する
incumbent - 義務としてかかっている
minutiae - 細かな点
おまけ leave on read - 既読スルー
分からなかったこと
英語面
- most data endeavors(analyticsの冒頭)ほとんどのデータ業務?
- logic-on-read
- silo(organization silo)
- burden - 負荷?