本記事の位置付け
こちらの勉強会 英語で技術書を読もう:Fundamentals of Data Engineering 第0回 に参加し、その際に発表したものです。
Preface / 序文
- データサイエンスからデータエンジニアリングへ
- 基礎ができてないからいつも苦闘する
- データサイエンティストはデータ収集・精製・アクセス・変換・インフラ等は習ってない。
- それがデータエンジニアが解決すべき課題
What This Book Isn't / この本で書かれていないこと
- この本では特定の技術に肩入れしたデータエンジニアリングは記載しない。
- そういう本は他にもあるが短命だ。
What This Book Is About / この本で書かれていること
- 今あるデータエンジニアリングの隙間を埋める本
- 特定の技術についての本はあるけど、それらを組み合わせて包括的に取り扱い、現実の課題に適用する本がない
- この本はそれらの点をつなぎ、データの下流にいるデータ利用者にデータを提供する
- データエンジニアリングライフサイクルについての本だ。
- データの生成
- データの蓄積
- データの摂取
- データの変換
- データの提供
- いろんな製品の栄枯盛衰があるが、データエンジニアリングの本質は変わらない
- その本質で現実の課題を解くのだ
- 二つの軸
- データエンジニアリングを様々な技術を包含できる原則に高める
- その原則を時の試練に耐えるように発表(present?)する
- ここでの学び(過去20年で様々に生まれた技術)を、今後10年以上にわたって続くようにしたい
Who Should Read This Book / 想定読者層
- 1stターゲット
- 技術の実践者
- 中堅以上のソフトウェアエンジニア
- データサイエンティスト
- データエンジニアリングに興味がある分析者
- 2ndTarget
- データチームリード
- DWHのマネージャ(オンプレからクラウドへの移行をしたい)
Prerequisites / 前提事項
- データシステムに慣れていること
- SQLやPythonの知識
- クラウドサービスの経験
What You'll Learn and It Will Improve Your Abilities / 読者の実力を向上させる、学べる事
-
データエンジニアがどのような影響を持つか
-
マーケットのジャーゴンを理解して正しい技術や構造を理解できる
-
堅牢なアーキテクチャを設計して構築できる
-
データエンジニアリングのライフサイクルの各段階のベストプラクティスを知ることができる
Navigating This Book / この本をざっと探ると
-
データエンジニアリングの原則を自分の仕事に組み込める
-
いろんなクラウドサービスを組み合わせてデータ利用者に提供できる
-
データエンジニアリングの問題を、ベストプラクティスにもとづいた考えの枠組みで調査できる
-
セキュリティとプライバシーをデータエンジニアリングライフサイクルに組み込める
Conventions Used in This Book / 本書で使用する規約
-
Part Ⅰ 基礎
- Chapter 1 データエンジニアリングの定義
- Chapter 2 データエンジニアリングの計画
- Chapter 3 良いアーキテクチャ
- Chapter 4 正しい技術の選択
-
Part Ⅱ データエンジニアリングライフサイクルの深堀
- Chapter 2 データエンジニアリングの深堀り
- データ生成
- データ蓄積
- データ摂取
- データ変換
- データ提供
- Chapter 2 データエンジニアリングの深堀り
-
Part Ⅲ セキュリティ、プライバシー、そしてデータエンジニアリングの未来
- Chapter 10 セキュリティとプライバシー
- Chapter 11 未来のデータエンジニアリング
- Appendix A 変換と圧縮
- Appendix B データシステムとクラウドネットワーキングのパフォーマンス