この記事について
- この記事はIBMが提供する製品に関する情報やナレッジを共有する Advent Calendar 2024の12月6日分として記載しています。
StreamSets(ストリームセット) について
-
StreamSets は、ストリーミングデータによるデータパイプラインを構築するために使用できるソフトウェアです
-
管理画面はSaaSまたはCP4Dにて提供されており、データ処理するソフトウェア部分は個別のサーバにインストールする形式を取っています
-
以下、動画を作成しましたので、ひとまず最初の1分だけでも見ていただけますと幸いです。
--
デモの説明
- データソース(kafka)
- リスクスコアリングサービス
- リスクスコアのフォーマット
- IBM Cloud Object Storage
- ハイリスクスコアの選択
- 低リスクスコアデータの破棄
- 分析用DBとしてのPostgreSQL
- このデモの流れとしては、以下の通りです
- データソース(kafka)からデータがストリーミング配信されます
- リスクスコアリングサービスにより、リスクスコアが付与されます
- 2.で付与されたリスクスコアのうち、不要な項目を削除します
- S3互換のオブジェクトストレージに全量をファイル(parquet形式)として保管しバックアップします
- 予め設定されている閾値により、ハイリスクスコアとそれ以外を分けます
- ハイリスクでないスコアのデータを破棄します
- ハイリスクなデータを分析用DB(PostgreSQL)に突っ込みます
- 上記のようなストリーミングデータのパイプラインを構築することで、データ分析者は7.の分析用DBにてハイリスクなデータについてタイムリーに分析することが可能となります
- 安価なオブジェクトストレージにファイル形式で全量データを保管しておくことで、なにかあった時の為に別途分析することも可能です
- 各データ経路でのデータの流量