2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

この記事について

スクリーンショット 2024-12-05 13.01.27.png

StreamSets(ストリームセット) について

  • StreamSets は、ストリーミングデータによるデータパイプラインを構築するために使用できるソフトウェアです

  • 管理画面はSaaSまたはCP4Dにて提供されており、データ処理するソフトウェア部分は個別のサーバにインストールする形式を取っています

  • 以下、動画を作成しましたので、ひとまず最初の1分だけでも見ていただけますと幸いです。

  • https://video.ibm.com/recorded/134196927

--

デモの説明

  • 以下がデモ用のStreamSetsのストリーミングデータのパイプラインの画面です
    スクリーンショット 2024-12-05 13.01.27.png

  • デモ画面に出ているアイコンの意味は、以下のとおりです

  1. データソース(kafka)
  2. リスクスコアリングサービス
  3. リスクスコアのフォーマット
  4. IBM Cloud Object Storage
  5. ハイリスクスコアの選択
  6. 低リスクスコアデータの破棄
  7. 分析用DBとしてのPostgreSQL

  • このデモの流れとしては、以下の通りです
  1. データソース(kafka)からデータがストリーミング配信されます
  2. リスクスコアリングサービスにより、リスクスコアが付与されます
  3. 2.で付与されたリスクスコアのうち、不要な項目を削除します
  4. S3互換のオブジェクトストレージに全量をファイル(parquet形式)として保管しバックアップします
  5. 予め設定されている閾値により、ハイリスクスコアとそれ以外を分けます
  6. ハイリスクでないスコアのデータを破棄します
  7. ハイリスクなデータを分析用DB(PostgreSQL)に突っ込みます

  • 上記のようなストリーミングデータのパイプラインを構築することで、データ分析者は7.の分析用DBにてハイリスクなデータについてタイムリーに分析することが可能となります

  • 安価なオブジェクトストレージにファイル形式で全量データを保管しておくことで、なにかあった時の為に別途分析することも可能です

  • 以下のようにデータの件数やスループット、各処理箇所での処理時間なども確認できます

  • 各処理部分での処理時間の比率
    スクリーンショット 2024-12-05 16.55.32.png


  • 各データ経路でのデータの流量

スクリーンショット 2024-12-05 16.56.29.png

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?