Spark 1.4.0がリリースされましたね。
https://spark.apache.org/releases/spark-release-1-4-0.html
- SparkR
- DataFrame API
など注目のアップデートが盛りだくさんです。
ビルド済みパッケージを利用してもいいのですが、ちゃんとビルドしてつかってみよう!
特にドキュメントと違うことはないけれど、メモ代わりに残しておきます。
環境
- OSX Yosemite
- MacBook Pro(Retina, 2012)
ドキュメントには、Building Spark using Maven requires Maven 3.0.4 or newer and Java 6+.
とあるので、事前にMavenとJavaがインストール済みかを確認しておく。
# Java 6以上が必要です。
java -version
# Maven 3.0.4以上が必要です。
mvn -version
残念な結果だったらHomebrewなりで環境を整えておきます。
ダウンロード
ここからバージョンとPackage Type(Source Codeを選択)を確認しつつダウンロード。
その後、解凍して/usr/local
に置いておく
cd ~/Download
tar xzvf spark-1.4.0
mv spark-1.4.0 /usr/local
早速ビルド
Sparkのホームに移動
cd /usr/local/spark-1.4.0
んでビルドコマンドを実行。
build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package
ちょっと待ってるとMavenが頑張ってくれてビルドが行われます。
僕はこれだけで特に何もなく終了。
シェルの設定
~/.bash_profileにSparkのインストール先を書いておく。
なお複数のバージョンのSparkがインストールされている場合、ここで指定しておく。
# Apache Spark
# export SPARK_HOME=/usr/local/spark-1.3.1/
export SPARK_HOME=/usr/local/spark-1.4.0/
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
その他設定
細かい設定は$SPARK_HOME/conf/spark-env.sh
に書くのが正しいみたい。ここの書き方は今度またまとめるつもり。
次は
色々機能も増えているので試したいことは多いのだけれど、SparkRからいじってみようかな。SparkMLも興味がある。それらはまた今度!