3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Delta Lake の全体像をつかむ:「詳細データレイクハウスアーキテクチャ」レビューとちょっとした思い出

3
Posted at

注意事項

本記事は「詳解 データレイクハウスアーキテクチャ」の提供を受けて執筆しています。対価の支払い・内容の事前確認は受けておらず、記載内容は筆者の見解です。

提供いただきありがとうございました。

概要

本記事ではオライリー・ジャパンから出版されている「詳解 データレイクハウスアーキテクチャ」の書評を記します。

image.png

出所:https://www.ohmsha.co.jp/book/9784814401390/

私と Delta Lake との出会い

私が Delta Lake と出会ったのは 2018 年頃です。Azure の東日本リージョンに Azure Databricks が展開されるにあたりトレーニングを受講したことがきっかけでした。

image.png

出所:2018 年 8 月 - Azure Databricks | Microsoft Learn

過去の情報を調べると,、その時には Delta Lake 相当の機能である Databricks Delta があったので、 Azure Databricks との出会いが実質的には Delta Lake との出会いです。Delta Lake という言葉自体には、 Databricks Delta がリリースされた際に Delta Lake という名称になったはずなので、 GA されたタイミングから一応知っていることになるようです。

image.png

出所:Azure Databricks の Delta Lake とは - Azure Databricks | Microsoft Learn

image.png

出所:2019 年 2 月 - Azure Databricks | Microsoft Learn

トランザクション機能を皮切りに、機能追加は怒涛の勢いで進みました。初期から関わっていても未体験の機能は多く、近年触れ始めた方にとって全体像の把握は容易ではありません。本書は、Delta Lake をこれから学習しようという方だけでなく、 Delta Lake を日常的に使っているが全体像を掴み切れていない方にも有用です。

書籍について

目次

本書籍の目次は下記となっており、重厚な内容となっております。すべて内容を理解しようと構えるのではなく、全体像を把握しようという軽い気持ちからはじめてもいいのではないでしょうか。私も本書籍の英語版を読んだ履歴があったのですが、読んだことすら覚えていない状況でした。今回頂いた書籍を読んでいてこの機能っていつ使うんだろうなということを、英語版を読んだときにも同じことを考えた記憶があります。いずれにせよ、どこかで記憶がつながっているものです。

  1. Delta Lake におけるレイクハウスフォーマット
  2. Delta Lake を導入する
  3. Delta Lake の操作
  4. Delta Lake エコシステムの詳細解説
  5. Delta Lake のメンテナンス
  6. Delta Lake を利用したネイティブアプリケーションの構築
  7. Delta Lake へのストリーミングの入出力
  8. 高度な機能
  9. レイクハウスのアーキテクチャ設計
  10. パフォーマンスチューニング: Delta Lake でのデータパイプライン最適化
  11. 成功するデザインパターン
  12. レイクハウスのガバナンスとセキュリティの基礎
  13. メタデータ管理、データフロー、リネージ
  14. Delta Sharing プロトコルでのデータ共有

動かしてみよう

本書には実行可能なサンプルコードが用意されています。まず第 2 章「Delta Lake を導入する」の手順で環境を構築し、その後は各章のコードを動かしながら読み進めると理解が深まります。Docker に抵抗がある場合は、Databricks Community Edition や Google Colab 上の Spark で動かしてみるのもいいかもしれません。

Google Colab における Spark と Delta Lake の実行手順は次の記事で紹介しています。

  1. Google Colab 上で Spark を利用する方法 #Python - Qiita
  2. Google Colab の Spark にて Delta Lake の動作検証 #GoogleColaboratory - Qiita

どう読むか

まず第 1 章で Delta Lake の概要を掴み、次に第 3 章「Delta Lake の操作」と第 9 章「レイクハウスのアーキテクチャ設計」で全体像を押さえると、その後の章が読みやすくなります。読了時に「理解が足りないかも」と感じても問題ありません。何年も Delta Lake に関わっていた私は英語版の書籍を読んだことすら忘れていたのですから、大丈夫です(と思いたい)。おそらく自分にとって今必要な機能は詳細に調べるでしょうし、ふと機能が頭に浮かぶことがあります。そんなきっかけとなるだけでも有益になる(と思いたい)。

まとめ

「詳解 データレイクハウスアーキテクチャ」が、Delta Lake の思い出に浸りながら、 Delta Lake の機能の全体像を改めて向き合うきっかけとなりました。もし本記事がその書籍を購入して Delta Lake を学習してみようと思う一歩になっていたら幸いです

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?