Spark 1.4がリリースされました。
機能追加についてはリリースノートを参照。
https://spark.apache.org/releases/spark-release-1-4-0.html
一番すぐに試せるのはDAGのモニタリングやSparkStreamingのモニタリングができるVisualization機能の追加でしょう。
これは得に既存のコードの改変も必要なくライブラリを1.3から1.4にすればSparkUIですぐ試せます。
SparkUI http://localhost:4040/
Spark1.4 + SparkStreamingを利用するbuild.sbt
version := "1.0"
scalaVersion := "2.10.5"
libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.0"
libraryDependencies += "org.apache.spark" %% "spark-streaming" % "1.4.0"
libraryDependencies += "org.apache.spark" % "spark-streaming-twitter_2.10" % "1.4.0"
Twitterからデータをリアルタイムに取得しSparkStreamingで取得集計するプログラムを書く
今回つかったフル版のソース
https://github.com/AKB428/mikasa_ol/tree/feature/spark14
http://lovelive-net.com/5/
http://lovelive-net.com/60/
こんな感じで毎分、直近5分、直近60分のTwitterワード集計ランキングを行うプログラムを走らせる
Spark起動
sbt
run
SparkUI にアクセス
Sparkを動かしているのが外部サーバー(VPS等)ならSSHポートフォワードする
ssh -L 14040:XXX.XXX.XXX.XXX:4040 user@server_hostname
XXX.XXX.XXX.XXXがサーバーIP
この場合はport14040にアクセスする。
Event lineを押下
青い四角を押下
DAG Visualizationを押下(たぶん直近のものしかデータが見れない)
Timeline Eventを押下