Global Mobility Service Advent Calendar 2020の1日目の投稿です。
データ基盤(もしくはデータ分析基盤)と呼ばれるシステムの構築を行なっています。
データ基盤とは、組織内のあらゆるデータを活用し、意思決定を可能にするためのデータを集めるシステムのことです。
筆者はいわゆるインフラエンジニアの業務を主に行っています。例えば、コンテナを使ったアプリケーションインフラの構築などです。
データ基盤もシステムのインフラと捉えることができるので、インフラエンジニアの領域のような感じがします。
ただ実際には、アプリケーションインフラとは異なるデータ基盤特有の難しさがありました。
本記事では、インフラエンジニアの筆者がデータ基盤を構築するのに役立ったコンテンツを紹介します。
これらのコンテンツによって、アプリケーションインフラとデータ基盤インフラの違いを理解し、データ基盤の構築を効果的に進めることができています。
インフラエンジニアとしてデータを活用するインフラ作りを担当しなければいけなくなった方々に参考になる情報だと思います。
なお、筆者の環境の都合により、AWSを前提としています。
データ基盤の全体像を掴む
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715 - Speaker Deck
データ基盤を構築するにあたっての前提となる考え方、それを実現するためのテクノロジーや実践方法といった内容が発表資料という形で簡潔にまとめられている資料です。全体像を掴むには最適なコンテンツです。
個人的には、一度作ったら終わりではなく、継続的に実験、改善するといった考えが印象的な内容です。
ある程度やるべきプラクティスが確立されているアプリケーションインフラと異なり、データ基盤は試行錯誤が必要な領域なんだと理解できます。
データマネジメントの知識体系(DMBOK)に沿った内容を具体的な例とともに解説している書籍です。
データマネジメントとは、データを資産と捉え、体系的に価値を引き出すための手法です。
本書では、データマネジメントの手法が数多く紹介されています。
個人的には、インフラエンジニアとしてはどうしても気になる信頼性に注目しました。信頼性については、多くの内容、具体例が掲載されています。
この中で、データの信頼性を保証するためのメタデータ管理の考え方がなるほどと思いました。
実例
事業のグロースを支えるDataOpsの現場 #DataOps #DevSumi #デブサミ / 20180727
「Data Platform Guide - 事業を成長させるデータ基盤を作るには」における具体的な事例の資料です。
技術の話にとどまらず、プロセス、チーム、文化に渡る内容を紹介しており、データ基盤構築の難しさ、奥深さを感じます。
MVPの考え方をデータ活用に利用するアプローチは参考になります。
データ収集の基本と「JapanTaxi」アプリにおける実践例
こちらの資料では、データ収集に関する技術を網羅しています。
データ収集における手法が体系的に整理されていて、発表資料ながら書籍のような充実した内容です。
なんとなくやっていたことがより理解できた感じがしました。
個人的にはDBからのデータ収集方法について、これほど多くのアプローチがあることに驚きました。
データベース
データ基盤に触れると、データを扱うためのソリューションが色々あることに気がつきます。
この資料はそのようなソリューションの傾向、ユースケースに合わせた使い分けを理解することができます。
個人的には、各ソリューションを性能という観点で分類しているのが分かりやすいです。
AWS
AWSにおいて、データ基盤を作るのに必要な情報が解説されています。
筆者の場合、データ基盤の構築をある程度行なってからこの本を読みました。
感想としてはもっと早くこの書籍の情報を知りたかったです。
AWSでは、Glue、Athena、Redshiftといったデータ活用向けのAWSサービスがありますが、それらの具体的な使い方が説明されています。
Glueに色々な機能があってよくわからないという問題が本書で解決できます。
おわりに
今回紹介した質の高いコンテンツを提供してくれている作成者の方々に感謝致します。
このようなコンテンツのおかげで、インフラエンジニアな自分でもデータ基盤を構築することができています。
皆様にも本記事が参考になれば幸いです。