More than 5 years have passed since last update.

Cloudera ManagerでStreamSetsのDataCollectorを楽々セットアップ

Posted at 2016-07-19

データフローが必要な背景

Hadoop(HDFS)にデータを集めてSparkやMapReduceで処理を行いたい場合、データのパイプラインを作る必要があるかもしれません。HadoopエコシステムのApache FlumeやApache Kafkaなどを組み合わせてパイプラインを作ることもできますが、それなりの手間と労力がかかります。

データフローを作るためのOSSとしてApache Nifi (https://nifi.apache.org/) がありますが、ApacheライセンスのOSS、StreamsetsのData Collector （https://streamsets.com/product/）もあります。後発な分、フローの定義やモニタリングのGUIが洗練されているような印象がありますね。

[Streamsetsのホームページより引用]

Data CollectorはApacheライセンスのOSSですが、Apacheプロジェクトではありません。しかし、HadoopやHadoopエコシステムと組み合わせて使うことが多いでしょう。Hadoopの環境は Cloudera Managerを使って簡単に構築できますが、同様に、Data CollectorもCloudera Managerを使って簡単にセットアップできます。今回は手元の環境でセットアップして試してみました。

なお、Streamsetsについては下記の記事も参考になります。
http://qiita.com/junko_urata/items/e6355bba3ad3f35c854eの

デモ動画
https://twitter.com/mlmoreno/status/753267274224578560

環境の準備

Cloudera Quickstart VM 5.7 の仮想マシン
または
Cloudera ManagerがセットアップされたHadoopクラスタ

Cloudera Quickstart VMのセットアップについては以下を参考にしてください。

Cloudera Manager に Streamsets のCSD (Custom Service Descriptors)をセットアップ

今回はCloudera Managerで構築するので、
https://streamsets.com/opensource/
のCSDの手順に従ってセットアップします。

ダウンロードが終わったら手順に従ってファイルをセットアップします。

[cloudera@quickstart ~]$ cd Downloads/
[cloudera@quickstart Downloads]$ sudo mv STREAMSETS-1.5.0.0.jar /opt/cloudera/csd
[cloudera@quickstart Downloads]$ sudo chown cloudera-scm:cloudera-scm /opt/cloudera/csd/STREAMSETS-1.5.0.0.jar 
[cloudera@quickstart Downloads]$ sudo /etc/init.d/cloudera-scm-server restart
Stopping cloudera-scm-server:                              [  OK  ]
Starting cloudera-scm-server:                              [  OK  ]
[cloudera@quickstart Downloads]$

Cloudera ManagerのWebUIからログインし、Parcelの画面からStreamsetsのDataCollectorをダウンロードします。