Mac
Apache
Spark

macにApache Sparkをインストール

More than 3 years have passed since last update.

macにapache sparkをインストールをしてみたので手順をメモ

※macのOSはOS X 10.8.5


ダウンロード

以下からバイナリファイルのダウンロードリンクをコピーしてくる

http://spark.apache.org/downloads.html

ダウンロードページにいくと、

・sparkのバージョン

・パッケージタイプ
・ダウンロードの仕方

を選択するセレクトボックスがあるので、それぞれ

・1.1.1

・Pre-build for Hadoop 2.4
・Direct Download

を選択。すると、

「4. Download Spark: spark-1.1.1-bin-hadoop2.4.tgz」

というリンクが表示されるので、そのリンクを右クリックでコピー

次に、ターミナルを開いてさっきのリンクからバイナリファイルをダウンロードする

$ cd /tmp

# ダウンロード
$ curl -O http://d3kbcqa49mib13.cloudfront.net/spark-1.1.1-bin-hadoop2.4.tgz

# ファイルを確認
$ ls
spark-1.1.1-bin-hadoop2.4.tgz

ダウンロードしたファイルを解凍して適当なところに移動

# 解凍

$ tar xzf spark-1.1.1-bin-hadoop2.4.tgz

# ファイル確認
$ ls
spark-1.1.1-bin-hadoop2.4

# 移動
$ mv spark-1.1.1-bin-hadoop2.4 /usr/local/share/spark

これで完了です。

うまくダウンロードできているか実際に動かしてみます。


apache sparkを起動してみる

起動シェルは「bin/spark-shell」です

$ cd /usr/local/share/spark

# 起動
$ bin/spark-shell

# 起動するとこんなのがでます
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.1.1
/_/



xx/xx/xx xx:xx:xx INFO SparkILoop: Created spark context..
Spark context available as sc.

scala>

次に簡単なサンプルを実行してみます。

公式ドキュメントにもある

apache sparkのREADME.mdファイルは何行かを取得する処理です。

※公式:https://spark.apache.org/docs/1.1.0/quick-start.html

sparkが起動している状態で以下を実行します。

scala> val textFile = sc.textFile("README.md")

textFile: org.apache.spark.rdd.RDD[String] = README.md MappedRDD[1] at textFile at <console>:12

scala> textFile.count()
res0: Long = 141

結果は141行でした。

実際に確認して出力内容に間違いがないか確認してみてください。


  • 注意点


上記サンプル実行時に

val textFile = sc.textFile("README.md")

とファイルを読み込んでいる箇所ですが、
sparkがある場所(今回だと/usr/local/share/spark)
直下で実行しないとREADME.mdが存在しないけどどうなってんの?
って怒られますのでご注意を。

※直下で実行しない場合は絶対パスか相対パスで指定すればokです


おわりに

まだまだサンプル実行のレベルですが、

今後スタンドアロンで実行してみたりと

いろいろやってみる予定です。

何か新しい情報、こうやっているよーってのがありましたら

情報交換して頂けると嬉しいです。