スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform
メモ
読んだ理由
スケーラブルなデータ処理や分析、機械学習モデルの構築を行う一連の手順を具体例とともに紹介
本書では、GCPを使ったデータエンジニアリングを総括的に捉え、具体的に学べるということで読んでみた。特に、機械学習のアーキテクトとか環境作りはまだ経験したことがないので、そのあたりまで含めたGCPのサービス利用イメージを掴みたかったので読んでみた。
思ったこと
機械学習を行う環境作りの仕組み化まで具体的に説明され、一連の手順が紹介されていたので、全体的な作業のイメージがつかめるようになった事はよかった。ただ、正直後半にいくにつれ、機械学習の詳しいモデリングの話とかは理解するのに骨が折れた。だいぶ飛ばしたので、実際業務で使う場合は改めて読みたい。
あとは、第一章「データに基づく意思決定」での議論がおもしろかった。
筆者は冒頭でデータ分析の目的を明確に示す。
データ分析の主目的は、よりよい決定を下すこと
分析をすることや、示唆を得るだけが目的ではなく、そこからよりより意思決定をするという事が強調されていた。
さらに、「データエンジニアとは?」 という話になっていく。
筆者は、Googleでのデータエンジニアの定義を以下のように紹介する。
データエンジニアというのは、「データ分析を実行してビジネスで成果を出す」ことができる人
Googleでは、データエンジニアは、 モデルの構築から自動化までをカバーできる と考えている
全部できる人だ。
データを収集して安全に管理するだけじゃダメだし、ビジネス示唆を与える分析ができるだけでもだめだし、データからモデルを作れるだけでもだめ。全部できなきゃいけない。
これは厳しい。読みながらそう思った。
でも、クラウドの進化により難易度は下がってきていると。実はそんなに、無理な話ではないと。
データ収集、管理、モデル構築、仕組み化はますますシンプルになっていくと。
将来的には、データアナリストと、データエンジニアと、データサイエンティストの垣根はなくなっていく。
「よりよい決定を下すこと」への道のりは、データエンジニアという職種が全てまかなうようになる。らしい。