注意事項
本記事は「詳解 データレイクハウスアーキテクチャ」の提供を受けて執筆しています。対価の支払い・内容の事前確認は受けておらず、記載内容は筆者の見解です。
提供いただきありがとうございました。
概要
本記事ではオライリー・ジャパンから出版されている「詳解 データレイクハウスアーキテクチャ」の書評を記します。
出所:https://www.ohmsha.co.jp/book/9784814401390/
私と Delta Lake との出会い
私が Delta Lake と出会ったのは 2018 年頃です。Azure の東日本リージョンに Azure Databricks が展開されるにあたりトレーニングを受講したことがきっかけでした。
出所:2018 年 8 月 - Azure Databricks | Microsoft Learn
過去の情報を調べると,、その時には Delta Lake 相当の機能である Databricks Delta があったので、 Azure Databricks との出会いが実質的には Delta Lake との出会いです。Delta Lake という言葉自体には、 Databricks Delta がリリースされた際に Delta Lake という名称になったはずなので、 GA されたタイミングから一応知っていることになるようです。
出所:Azure Databricks の Delta Lake とは - Azure Databricks | Microsoft Learn
出所:2019 年 2 月 - Azure Databricks | Microsoft Learn
トランザクション機能を皮切りに、機能追加は怒涛の勢いで進みました。初期から関わっていても未体験の機能は多く、近年触れ始めた方にとって全体像の把握は容易ではありません。本書は、Delta Lake をこれから学習しようという方だけでなく、 Delta Lake を日常的に使っているが全体像を掴み切れていない方にも有用です。
書籍について
目次
本書籍の目次は下記となっており、重厚な内容となっております。すべて内容を理解しようと構えるのではなく、全体像を把握しようという軽い気持ちからはじめてもいいのではないでしょうか。私も本書籍の英語版を読んだ履歴があったのですが、読んだことすら覚えていない状況でした。今回頂いた書籍を読んでいてこの機能っていつ使うんだろうなということを、英語版を読んだときにも同じことを考えた記憶があります。いずれにせよ、どこかで記憶がつながっているものです。
- Delta Lake におけるレイクハウスフォーマット
- Delta Lake を導入する
- Delta Lake の操作
- Delta Lake エコシステムの詳細解説
- Delta Lake のメンテナンス
- Delta Lake を利用したネイティブアプリケーションの構築
- Delta Lake へのストリーミングの入出力
- 高度な機能
- レイクハウスのアーキテクチャ設計
- パフォーマンスチューニング: Delta Lake でのデータパイプライン最適化
- 成功するデザインパターン
- レイクハウスのガバナンスとセキュリティの基礎
- メタデータ管理、データフロー、リネージ
- Delta Sharing プロトコルでのデータ共有
動かしてみよう
本書には実行可能なサンプルコードが用意されています。まず第 2 章「Delta Lake を導入する」の手順で環境を構築し、その後は各章のコードを動かしながら読み進めると理解が深まります。Docker に抵抗がある場合は、Databricks Community Edition や Google Colab 上の Spark で動かしてみるのもいいかもしれません。
Google Colab における Spark と Delta Lake の実行手順は次の記事で紹介しています。
- Google Colab 上で Spark を利用する方法 #Python - Qiita
- Google Colab の Spark にて Delta Lake の動作検証 #GoogleColaboratory - Qiita
どう読むか
まず第 1 章で Delta Lake の概要を掴み、次に第 3 章「Delta Lake の操作」と第 9 章「レイクハウスのアーキテクチャ設計」で全体像を押さえると、その後の章が読みやすくなります。読了時に「理解が足りないかも」と感じても問題ありません。何年も Delta Lake に関わっていた私は英語版の書籍を読んだことすら忘れていたのですから、大丈夫です(と思いたい)。おそらく自分にとって今必要な機能は詳細に調べるでしょうし、ふと機能が頭に浮かぶことがあります。そんなきっかけとなるだけでも有益になる(と思いたい)。
まとめ
「詳解 データレイクハウスアーキテクチャ」が、Delta Lake の思い出に浸りながら、 Delta Lake の機能の全体像を改めて向き合うきっかけとなりました。もし本記事がその書籍を購入して Delta Lake を学習してみようと思う一歩になっていたら幸いです



