平成31年春期 午前問題29
ビッグデータのデータ貯蔵場所であるデータレイクの特徴として,適切なものはどれか。
1、データレイク(Data Lake)とは、
川の流れのように絶えず流れ込んでくる多種多様な生データを、その規模にかかわらず、本来のフォーマットのまま蓄積しておく巨大な"貯水湖"です。蓄積するデータの生成元には、Webサイトやソーシャルメディア、モバイルアプリ及びIoTデバイスなどを含みます。
蓄積されたデータは、機械学習、予測分析、データ検出、プロファイリングなどに役立てられますが、どのように使用するかは基本的に利用者に任せられています。収集する範囲を決めずにそのままのデータが一元的に管理されているため、分析の際に求めるデータが不足したり、他システムから寄せ集めたりといった問題がなくなります。
・データレイクは、規模や種類にかかわらず、どのようなデータでもそのまま保存できるリポジトリです。
・本来のフォーマットのまま保存します。
・事前に用途や目的が決まっているわけではないので、データモデルは定義しません。
・多種多様なデータが単一のデータレイクに混在して保存されます。
データレイクの定義
データレイクとは、構造化データや非構造化データを格納する場所であり、様々なデータソースから集められたデータを管理し、活用のための前処理を行える環境。
Hadoopやオブジェクトストレージ+Sparkで構成されることが多い。