はじめに
筆者は、新卒でデータサイエンス関係の仕事に3年半携わったのち、2社目の現職でデータエンジニアリングに初めて触れ、本格的に取り組んでおります。
データエンジニアリングはデータサイエンスとは全く別世界で、周りが何を言っているか?さっぱりわからない時期がありました。
またデータアナリストロールでの入社だったことから、本業のデータ分析に加えデータエンジニアリングも並行して学習しないといけず、かなり苦労したのを覚えています。
現在入社して約1年半が経過し、徐々に知識がついてきたおかげか、ようやく周囲のエンジニアが話している内容にもついていけるようになりました。
しかし、試行錯誤の中で、「この本を初学者のうちに読んでおけばもっとキャッチアップ早かったな」という感覚にも陥りました。
今回は、かつての私と同じようなこれから本格的に取り組む人のために、データエンジニアリングの入門書を紹介をしていきます。
対象の読者
- データサイエンティストの方で、データエンジニアリングを急遽やることになった人
- これからデータエンジニアリングを始めるが、何をしたらいいかわからない人達
書籍の紹介
では書籍の紹介に移っていきます。
個人的な所感も含みますが、初学者はまず下記観点を抑えればいいと考えています。
- データエンジニアリングの概要
- 実装できるハンズオン教材
- データベースの設計
- メタデータに代表されるデータガバナンス
- データマネジメント
上記5つの観点に沿った書籍を、それぞれ紹介していきます。
実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ
データエンジニアリングの全体像を掴むのに最適な1冊です。
「データ基盤てどう作ればいいの?」「データマートとデータウェアハウスの違いて何?」といった初学者のお悩みから、CDCやParquetファイル、スタースキーマの設計など本格的な用語も登場します。
データエンジニアリングで登場する単語が網羅的に押さえられており、初学者ではなくなった私ももう一度振り返るべき1冊になっています。
Google Cloudではじめる実践データエンジニアリング入門
具体的なGoogle Cloudの製品を題材とし、データエンジニアリングをハンズオン形式で学べる書籍です。
またデータエンジニアリングの資格であるGoogle CloudのProfessional Data Engineer取得に向けた参考図書でもあります。
"Professional"という文言はついていますが、データエンジニアリングを行う際に必要な知識が詰まっており、これから始める人でも是非取っておきたい資格の1つです。
筆者も現職に入社して大体1年経ったころに取得できたため、取得を推奨します。
実践的データモデリング入門
データベースの設計をする際に役立つ本です。
データモデリングという言葉が仰々しく聞こえますが、要するにデータベースの設計書になります。基本的な話概念の話を書籍の前半で触れ、後半では、具体の事例を用いながら設計図の書き方を知ることができます。
筆者もこの書籍でLTをやっているので、こちらも併せて見ていただけると幸いです。
[エンジニアのための]データ分析基盤入門<基本編> データ活用を促進する! プラットフォーム&データ品質の考え方
データ分析基盤を軸に、メタデータやデータ品質などのデータガバナンスについても扱った書籍になります。
書籍の前半では「ストリーミング処理」や「ストレージ」など上に挙げた書籍の復習的な内容もありつつ、後半では「データカタログ」「セキュリティ」「データ品質管理」などガバナンス的な内容にもふれています。
DX時代のデータマネジメント大全 DX、データドリブン経営、データ利活用から理解する
データマネジメントという、組織や企業で実際にデータ利活用を進めるための考えを理解するための書籍です。
データマネジメントの知識として、データマネジメント知識体系ガイド(通称DMBOK)があるのですが、辞典のように分厚く、初学者にとってはかなりハードルが高いです。内容も抽象的なものが多く、実例を思い浮かべるのが困難です。
現職でも輪読会を実施しましたが、読了までに年単位でかかるものでした。
紹介した書籍は、ビジネスの実例に沿ってデータマネジメントを紹介していることから、頭に入りやすい構成となってます。また、データサイエンス的な活用例もみられ、親しみやすい内容です。
おわりに
今回の記事では、私自身の経験をもとに、これからデータエンジニアリングを始めたいデータサイエンティスト向けの本5冊を紹介しました。
現職に入社する前の私は、データエンジニアリングについてAWSのS3しか実務でまともに扱ったことがなく、ものすごく苦労した記憶がありました。
データエンジニアリングはカバー範囲が広く、ここに紹介できなかった内容も含む可能性があります。ですが、紹介した本を読めば、大まかにデータエンジニアリングの領域をカバーでき、それ関連の議論にある程度はついていけると確信しています。
今回の記事が、これからデータエンジニアリングに触れる多くの人に届くことを願ってやまないです。