LoginSignup
30
27

More than 5 years have passed since last update.

StreamSets Data Collectorの紹介

Last updated at Posted at 2016-03-25

アメリカ在住のJava女子です。
StreamSetsというサンフランシスコのスタートアップ(というか自分が働いている会社なんですがw)が開発している、Data Collecterについて紹介してみます。

Data Collectorとは何?

会社のホームページによると

StreamSets Data Collector is a lightweight, powerful engine that streams data in real time. Use Data Collector to route and process data in your data streams.

軽量でパワフルなデータストリーミングエンジンで、データの移動と変換が簡単にGUIで出来ますよ、という製品です。オープンソース製品なのでソースコードが公開されています(github.com/streamsets)

例えばローカルのファイルを、field validationをしながらHadoop FSに移動させたり、Apache Web serverのログをElasticSearchに移動させ、途中の過程でalertを検出したり。

製品のGUI画面です。ホームページより引用。
Screen Shot 2016-03-25 at 4.04.40 PM.png

現時点でのデータ入力元

  • ローカルファイル
  • File Tail
  • Hadoop FS
  • JDBC
  • HTTP Client
  • Amazon S3
  • Kafka
  • MongoDB
  • Omniture
  • MapR
  • RPC
  • UDP
  • RabbitMQ

データ入力先は

  • Cassandra
  • Elasticsearch
  • Flume
  • Hadoop FS
  • HBase
  • Hive Streaming
  • InfluxDB
  • JDBC
  • Kafka
  • Kinesis
  • MapR
  • RabbitMQ
  • SDC RPC
  • Solr
  • Error/Trash

インストールしてGUI画面を見ればなんとなく分かると思うので、早速インストールと起動をしてみよう。

インストールと起動

動作環境
- Mac OS
- Java 1.8インストール済み

streamsets.comのサイトへ行き、右上のDownload Open Sourceをクリック。
Screen Shot 2016-03-25 at 3.34.24 PM.png

ダウンロードサイトからtarballをダウンロード。適当なディレクトリで、

$ tar xvzf streamsets-datacollector-all-1.2.2.0.tgz
$ streamsets-datacollector-1.2.2.0/bin/streamsets dc

ブラウザからhttp://localhost:18630 にアクセスすると、ログインページが表示されます!

Screen Shot 2016-03-25 at 4.16.16 PM.png

UsernameとPasswordは両方 admin でログイン。
Create new pipelineのボタンをクリック。適当にパイプラインの名前を入力します。

こちらがGUI画面です。(初期状態はエラーが2つ表示されているはずです)
Screen Shot 2016-03-25 at 4.18.48 PM.png

このキャンパスの上に入力元や入力先のアイコンを置いて、データストリーミングのパイプラインを作っていきます!

例えば、ローカルのファイルからデータを2種類に分け、Jython EvaludatorとField Maskerを使いながらデータをクリーンアップし、最終的にHadoop FSへと移動させるパイプライン例。
Screen Shot 2016-03-25 at 4.48.52 PM.png

膨大なJSONオブジェクトをApache Hiveに移動させる例。
Screen Shot 2016-03-25 at 4.45.06 PM.png

とりあえず今回はここまで。次回はチュートリアルに乗っているパイプラインを実際に作ってみたいと思います。

30
27
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
30
27