More than 3 years have passed since last update.

ラムダアーキテクチャ

Last updated at 2022-07-11Posted at 2022-07-08

1. 調査の趣旨・目的

ビッグデータ処理に用いられている、ラムダアーキテクチャについて理解する

参考ページ

Apacheの作者が提唱した、三層構造でデータ基盤の拡張性や、保守性を実現する設計概念
ストリーミングデータとバッチ処理の定期実行で得られる集計結果を組み合わせて分析できる
ビッグデータの処理システムの設計指針

バッチレイヤ(Cold path)
- 生データの保存、定期的なバッチ処理
- 全てのデータ（主に過去のデータ）に対して、バッチ処理を実行
- バッチビューを生成
スピードレイヤ(Hot path)
- リアルタイムで送られてくるストリーミングデータを一時的に保持、リアルタイム処理
- 精度と引き換えに、待機時間が短くなるように設計
- ストリーミングデータからリアルタイムビューを生成
サービスレイヤ
- バッチ処理で得られるビューをクライアントに提供
- BIツールとか、SQLで参照可能
- バッチビュー、リアルタイムビューから計算
- リアルタイム性を求める場合には精度が低い可能性のあるスピードレイヤのデータ
- 正確性を求める場合には、多くのデータから計算され、精度の高いバッチレイヤのデータを

やっと言いたいことがわかってスッキリした
リアルタイム＆精度落ちる、バッチ処理＆高精度は、レイヤ型ディスプレイの考えとかに似ている（NTFとCNN）
最初は何を言っているかわからなかったが、複数サイトで包括的に見ることって大事

単語	意味	備考
生データ	バッチレイヤに格納されているデータ、前のデータが上書きされることはないため、データはどんどん追加、精度は向上する	---
バッチ処理	大量の生データをまとめて一括で処理すること	---
BIツール	企業の持つデータを分析、可視化を行うツール	Business Intelligence tool
ストリーミングデータ	無制限に発生する、大量のリアルタイムデータ	---
アドホック	その場の端末だけでグループを形成するモードをアドホックモード	その場だけ
マスタデータ	永続性を必要とする唯一のデータストア	---
バッチビュー	バッチレイヤから生成されたデータ	---