この記事は株式会社ナレッジコミュニケーションが運営する クラウドAI by ナレコム Advent Calendar 2021 の21日目にあたる記事になります。
#はじめに
データ分析に欠かせないものとしてデータの蓄積環境があります。データの蓄積環境は
様々な形態がありますが、最近良く耳にするのが「データウェアハウス」と「データレイク」があります。
どちらも大量のデータを収集する環境として利用されておりますが、この記事では、そんな「データウェアハウス」と「データレイク」との違いについてを簡単にご説明できればと思います。
#データウェアハウスについて
データウェアハウスは、直訳すると「データの倉庫」になります。
倉庫には、様々な物品が、物品ごときれいに整理されていますよね。データウェアハウスは、まさにそのように用途別に整理されたデータが保存されている場所になります。
そのため、用途が明確な必要があります。
#データレイクについて
データレイクは、直訳すると「データの湖」になります。湖の中には、水はもちろんですが、その中には魚や微生物水面にも写真のような鳥などの生物がおり、湖には水の他に多種多様な生物がいます。
データレイクは、まさに湖のように様々なデータを蓄積されている場所になります。
データレイクの中には、整理されたテーブルデータだけでなく、画像やログファイルなどのデータも多く含まれております。そのため活用をする際には、活用をするためにデータ形式を変えていく必要があります。
#データウェアハウスとデータレイクの違いについて
データウェアハウスとデータレイクには、どのような違いがあるのでしょうか。
前段でデータウェアハウスは整理されたデータが保管されている倉庫。データレイクは、様々なデータが蓄積されている湖とお伝えしましたが、簡単に言うと、データウェアハウスには、刺し身を作るために加工された魚が保存されていて、データレイクには、生魚が保存されているような状態になります。
つまり、刺し身をベースにアレンジした料理を作りたいのであれば、データウェアハウスを利用するのが良いのですが、昨今は、生魚から煮魚や焼き魚など様々な形に活用をしていきたいというニーズが高まって来ております。そのため、データレイクを準備していく企業も増えてきております。
データレイクのデータを様々な形に加工していくことで、一つの生データから複数の利用が可能になっていきます。しかし、用途が決まっていないと魚をどう加工したらいいのかがわからず、生魚が次々に溜まってしまって、データスワンプ。直訳すると「データの沼」になってしまうということが起きてしまいます。
#データスワンプからの脱却
そんなデータレイクのデータスワンプ化から脱却する事ができる仕組みがあります。
それがDelta Lakeです。
Delta Lakeは、データ レイクに信頼性をもたらすオープンソースのストレージ レイヤーです。 Delta Lake は、ACID トランザクションとスケーラブルなメタデータ処理を提供し、ストリーミングとバッチ データ処理を統合します。 Delta Lake は既存のデータ レイク上で実行され、Apache Spark API と完全に互換性があります。詳しくは、こちらの記事を参考にしてみてください。
最後に
いかがだったでしょうか。データウェアハウスとデータレイクの違いについて、
ざっくりでも、違いを理解していただけたら幸いです。
◆参考記事及び書籍
Delta Engine および Delta Lake ガイド
https://docs.microsoft.com/ja-jp/azure/databricks/delta/
参考書籍
AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門