問題
データ基盤設計において、統合型データ基盤を採用した場合のメリットを、データレイク型データ基盤を採用した場合と比較して3つ述べよ。
回答例
-
データレイク型では、blobとしてあらゆるデータを一元管理することでサイロ化を防ぐ設計とするが、統合型では監視・運用基盤をデータ基盤に組み込むことで、設計、実装面での負荷を下げ、サイロ化を防ぐことができる。
-
データレイク型ではデータクレンジングや加工の為にETLを設計・実装する必要があり、インタフェースやセキュリティ面での設計負荷が高いが、統合型の場合は製品仕様にある程度委ねることができるため、設計負荷が低い。
-
データレイク型では、blobとしてあらゆるデータを格納・保管することが可能であり、この点RDBMSを採用する統合型は格納データの制限を受けるが、統合管理ツールによってNoSQL及びHadoop等分析基盤とのデータベース越しのグータッチを可能とすることで、格納データの制限を受けにくくすることができる。
解説
データレイク型と統合型を比較しつつ、主に以下3点について論じる。
- サイロ化について
- 何でもいいから設計負荷について
- データベース越しのグータッチについて
データベース越しのグータッチ
異なるデータセットを扱うデータベース(e.g. MongoDBとCosmosDBとRedshift等)間をシームレスに結合・集計すること。頻出表現である。
分散型についても同様に比較することができるようにしましょう。