はじめに
データレイク?データウェアハウス?
「データを蓄積して分析するための環境」という意味ではデータウエアハウスもデータレイクも同じ
- データウェアハウス:「目的指向」のため、どういう分析をするのかという目的を決めてから、そのための環境として構築される
- データレイク:目的を持たずにデータを一元的に管理するもの
データレイクを構築するには?
- まだデータレイク構築はしたことがないという IT エンジニアの方には、「
AWS Lake Formation
」というサービスをご紹介。- データレイクへのアクセス制御を一元で定義して管理し、データの機密性を強化するビジネスメタデータをデータに付けることで安全なデータレイクを素早く構築できる
AWS CloudFormation を使ったデータレイクの構築
AWS CloudFormation
を利用することで、AWS クラウド上に、安全で柔軟があり、かつコスト効率の高いデータレイクを短時間でデプロイできます。
このテンプレートを実行すると、上記のように Amazon S3、AWS Glue、Amazon Elasticsearch Service、Amazon DynamoDB、AWS Lambda や Amazon API Gateway などで構成されたデータレイクが、デフォルト設定の場合であれば、約 30 分程度 (目安) で自動デプロイ可能
より運用管理負荷が低いデータレイクを実現するには?
データレイクもサーバーレスで構築できる。
AWS では Amazon Kinesis Data Streams
や Amazon Kinesis Data Firehose
、Amazon S3
などのサービスを使用したサーバレスデータレイクの設計、構築、および運用もできる。