More than 3 years have passed since last update.

datatech-jpAdvent Calendar 2021

@mashimo_

Hadoop系のデータエンジニアリングを始めるときに1ヶ月学習した内容

Last updated at 2022-04-23Posted at 2021-12-12

概要

この記事は、datatech-jpアドベントカレンダーの13日目です。

サーバやDBに詳しくなく、SQLを少し書いたことがあるだけレベルの未経験者が、この夏にHadoop関連のデータエンジニアリングを始めました。
その最初の1ヶ月間で学習した内容の話です。

間違ってるところなどあればコメントしてくださいませ。

対象

「HiveとかHadoopとか、意味がわからないです」
「そもそもデータエンジニアリングってなんだっけ、どんなテーマがあるんだっけ」

という人。

注意

データエンジニアリング ≠ データサイエンスなので、データサイエンスを学びたい人は東京大学などが公開しているコースで学習するのが最短だと思います。

今回はデータエンジニアリング、特にパイプラインマネジメントやHadoopエコシステム周辺のエンジニアリングに取り組む準備がテーマです。

勉強内容のステップ

0週間目学習の前に
1週間目データベースの初歩的な知識をもつ
2週間目 Hadoopエコシステムを最速で把握する
3週間目トレンドをおさえる
4週間目現場の問題を感じる

0週間目　学習の前に

コンサルタントは新しい分野の仕事をするとき、その分野の本を一気に10冊は読むそうです。

データエンジニアリングに限りませんが、知らない分野に飛び込むときは

専門用語
全体観
変化要因(アツイ部分)

の3点を最速で把握することを意識すると良いです。

この記事もこの流れを汲んでいます。

1週間目データベースの初歩的な知識をもつ

データエンジニアリングを知る前に、データエンジニアの主戦場であるデータベースについて知る必要があります。

ネットや本で以下の用語がサッとイメージ湧くくらいまでになるまでデータベースやバックエンドについて調べます。

RDB
SQL
正規化
カーディナリティ
NoSQL DB

資料はなんでもいいですが、最近出たAI Shiftさんの資料は歯応えあって面白いと思います。

上のようなDB基礎用語のイメージが掴めたら、次はビッグデータ基盤特有の語彙についても調べます。

データレイク
データウェアハウス
データマート
列指向データベース
ETL, ELT処理
OLAP, OLTP

上記の単語が何を指しているのか、どんな目的で使い分けられるのかが大体分かるレベルになればOKです。

ビッグデータ基盤も学習資料はなんでもいいですが、データ基盤全体の説明や[ETLとELTの違い] (https://it-trend.jp/etl/article/252-0002)あたりをざくっと読んで調べ始めると分かりやすいです。

2週間目 Hadoopエコシステムを最速で把握する

次に、Hadoopエコシステムの把握です。
正直コンポーネントが多く意味が掴みづらいため、全体感を把握しつつサクッと進めましょう。

※「うちはBigQuery使うからHadoopとかHiveとか一切触らないよ」って人は、このステップをスキップしてもよいと思います。
その代わり、GCPやAWSのデータ製品の関係性について調べると実務上有用かも。GCPの本など。
Hadoopエコシステムは以前主流だったもので、いま実際の現場の業務で触れないことも多いです。これらの技術は既にGCPやAWSに機能として組み込まれつつあります。
オンプレでHadoop、といった構成は今後も残るとは思いますが、用語や概念を頭にインストールしておくに留めるのもアリだと思います。

Hadoopまわりのデータエンジニアリングを学ぶために、『ビッグデータを支える技術』の前半を一気読みします。良書です。

hadoop
hdfs
MapReduce
hive
Tez
spark
presto
データの拡張子 (csv, parquet, など)

あたりの用語とそれぞれのツールの立ち位置を把握します。

書面は載せられないので別の記事を参照しますが、Apacheプロジェクト一覧が全体を把握するのに極めて有用です。

ここまで学習するとwebに落ちてるデータインフラの資料を読んでほぼわかるレベルまで来ます。

3週間目オンメモリ、クラウドのトレンドを把握する

資料を調べていくと、データエンジニアリングにおけるここ数年のトレンドが見えてきます。大きく

処理がディスクからメモリへ
サーバーがオンプレからクラウドへ

の大きく二つのトレンドがあります。

ディスク保存からオンメモリへ処理が移行

ここ数年のデータエンジニアリングにおいてはCPU、メモリ量の増大を背景としたストレージとコンピューティングの分離のトレンドがあります。

巨大なテーブルにクエリを投げる際も、ディスクに都度書き込みながらMap reduceで処理するより、**大きなメモリ上で全部処理した方が速いし拡張性もあるのでは？**といった発想があり、Prestoなどがその思想を引き継いで普及しています。

今後ディスク書き込みの必要なケース(巨大なテーブルを確実に処理したいときなど)よりも、オンメモリ処理が主流になっていくと考えられます。

オンプレからクラウドへ

これはソフトウェア業界の方ならご存知だと思うので割愛します。

※最近気づいたのですが、Dremel (BigQueryの前身) の振り返りペーパーにもトレンドが色々列挙されているので超オススメです。もっと早く読みたかった。

4週間目現場の悩みを把握する

(会社にもよりますが) データエンジニアリングの現場の基本的な悩みは3つほどに集約されると思います。

データがBigになったりユーザーが増えたりして、クエリが遅くなって困る
パイプラインが入り組みすぎて混乱
データ品質、データ仕様の管理が難しい

この基本的な問題に加え、機械学習のプロジェクトならモデルの管理やデプロイフロー、機密情報を扱うプロジェクトなら暗号化やパーミッションの問題、BIのプロジェクトならデータマートの設計や仕様決めの難しさ、などのフレーバーが足されていきます。

datatech.jpで輪講が行われていましたが『Self Service Data Roadmap』がこのあたりの問題を網羅的に整理しているので、気になる箇所があれば読んでみるのもアリです。

1ヶ月後

ここまで進めたあたりで、データエンジニアリングについて質問投げたり、技術論文を読んだりするときに困らなくなりました。

データサイエンスの資料は世の中に溢れていますが、データエンジニアリングについてまとまっている資料は少ないので記事にまとめました。
どなたかの参考になれば幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up