みなさん、こんにちは!
みなさんは「データ分析基盤」という言葉を聞いて連想される言葉はどういったものですか?
今、世の中には、
データレイク
レイクハウス
データマート
データウェアハウス
このようなデータ分析基盤を表す言葉が複数存在しています。
私たちテラデータがそれらの言葉をどのように考え、それがお客様、特に米国のお客様にで受け入れられているのかお話したいと思います。
データ分析基盤を表す言葉について考えてみる
さきほど挙げた4つの言葉について私たちが同定義しているかお話しましょう。
データマート
データマートはユーザーが持っているデータ分析のニーズを満たすことを目的に、そのために必要なデータのみを集めたシステムです。ここでいうデータ分析のニーズというのはその企業のビジネスの中の一つの業務の中に閉じたものをいいます。
例えば管理会計システムであるとか顧客分析システムというったものです。
したがいましてデータマートは物理的にそういった業務ごとの単機能のシステムとなりがちで別の業務に関する分析ニーズを満たすためには別のシステムを新たに構築するということがほとんどです。そのため様々なデータマートが林立することとなり、それらを管理するために膨大なコストや人的リソースが必要となってくるという構造的な問題を内包しています。
実は日本ではデータウェアハウスと呼ばれるシステムがこのようなデータマートであることがとても多いです。
データマートは
・データのバリエーションは少ない
・課題解決のためにある程度データがわかりやすくまとめられている
・対象業務によってユーザー数が変わり比較的大きなユーザー数となることもある
・ダッシュボートや帳票から、ある程度深い分析にも利用されることがある
そんなシステムです。
データレイク
データレイクはIoTによって発生するデータのようなボリュームの大きなデータをコストを抑えて保存したり、短時間でデータ処理を行うことを目的に発展したシステムです。その目的のためにデータレイクでは当初からHadoopシステムが利用されることが多くありました。もともとオープンシステムであったHadoopは商用製品を利用した場合でもソフトウェアライセンス費用を安く抑えることができるため、商用データベース製品を利用するよりも単位サイズ(例えば1テラバイト)あたりの保存コストを安く抑えることができました。またHadoopは複数の物理的なハードウェアを使用してデータ処理を行うシステムのためノードを増やせば非常にボリュームの大きないわゆるビッグデータを扱いやすいこともありました。
現在はデータを蓄えるという点に特化しクラウド上に低コストで用意されるオブジェクトストアを利用することも多くなりました。
データレイクは
・様々なデータを一次的に蓄えるため様々なデータが存在する
・データを利用しやすい形に加工しない生データで保持することがほとんど
・データとして利用しにくいままのため直接アクセスするユーザーは少ない
・データ利用のバリエーションも限られる
そういったシステムとなります。
レイクハウス
レイクハウスはデータレイクに蓄えられているデータを少し複雑な分析ができるようにしたシステムになります。「少し複雑な」という言葉にはAIや機械学習も含まれます。
AIや機械学習で利用されるデータはIoTによって得られたセンサーデータのようなビッグデータを利用することも少なくありませんし、もともとデータレイクを構築するために使われていたHadoopもSparkと連携してPythonやRといった言語の処理を行うことが可能であるためこのような構成が派生的に生まれてきました。
レイクハウスは
・様々なデータを一次的に蓄えるため様々なデータが存在する
・生データを都度ユーザーが利用したい形に加工して利用する
・データ・サイエンティストが利用することが多いためユーザー数は少ない
・データ利用のバリエーションも限られる
といったシステムになります。
データウェアハウス
データウェアハウスは企業内のあらゆるユーザーがあらゆるデータを使用することができあらゆる処理を行うことができる、いわば究極のデータ分析環境です。成り立ちとして複数のデータマートを統合して構築されるデータマート・コンソリデーションや小さく、はじめは単機能のデータマートから始めたとしても、段階的にデータが追加され分析できる業務的な範囲を広げていくことでデータウェアハウスへと成長するグローイング・アップの場合とがあります。
企業内から様々なデータを集めてそれらを横串で通して分析を行うためには、マスターの統合をはじめ、複数のデータソースから得られた同じ意味を持つデータの選択など単一視点(シングル・オブ・ビュー)となるようなデータ統合をおこなってデータを利用するユーザーに迷いが生じないようにすることが肝要です。
このようなデータウェアハウスを構築することで新たな分析ニーズが生まれた際に、新たな分析システムを構築することなくすぐにそのニーズにこたえることができるようになります。
データウェアハウスは
・企業内のすべてのデータを保持するためデータのバリエーションが非常に多い
・様々なソースから得られたデータが統合されているべきである
・全社で利用するためユーザー数が非常に多い
・あらゆるニーズにこたえるためデータ利用のバリエーションも多い
といったシステムになります。
4つのシステムをその特性に応じて並べたものが上の図になります。データを蓄えておくほぼ器に近いデータレイクから高度に統合されあらゆるニーズにこたえられるデータウェアハウスまで、それぞれの特長を考慮したシステム構築を行うべきでしょう。
私たちテラデータは企業が持つべきデータ分析環境は私たちの言うデータウェアハウスであると考えています。
その理由については別の記事で紹介したいと思います。