macにapache sparkをインストールをしてみたので手順をメモ
※macのOSはOS X 10.8.5
ダウンロード
以下からバイナリファイルのダウンロードリンクをコピーしてくる
ダウンロードページにいくと、
・sparkのバージョン
・パッケージタイプ
・ダウンロードの仕方
を選択するセレクトボックスがあるので、それぞれ
・1.1.1
・Pre-build for Hadoop 2.4
・Direct Download
を選択。すると、
「4. Download Spark: spark-1.1.1-bin-hadoop2.4.tgz」
というリンクが表示されるので、そのリンクを右クリックでコピー
次に、ターミナルを開いてさっきのリンクからバイナリファイルをダウンロードする
$ cd /tmp
# ダウンロード
$ curl -O http://d3kbcqa49mib13.cloudfront.net/spark-1.1.1-bin-hadoop2.4.tgz
# ファイルを確認
$ ls
spark-1.1.1-bin-hadoop2.4.tgz
ダウンロードしたファイルを解凍して適当なところに移動
# 解凍
$ tar xzf spark-1.1.1-bin-hadoop2.4.tgz
# ファイル確認
$ ls
spark-1.1.1-bin-hadoop2.4
# 移動
$ mv spark-1.1.1-bin-hadoop2.4 /usr/local/share/spark
これで完了です。
うまくダウンロードできているか実際に動かしてみます。
apache sparkを起動してみる
起動シェルは「bin/spark-shell」です
$ cd /usr/local/share/spark
# 起動
$ bin/spark-shell
# 起動するとこんなのがでます
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 1.1.1
/_/
・
・
・
xx/xx/xx xx:xx:xx INFO SparkILoop: Created spark context..
Spark context available as sc.
scala>
次に簡単なサンプルを実行してみます。
公式ドキュメントにもある
apache sparkのREADME.mdファイルは何行かを取得する処理です。
※公式:https://spark.apache.org/docs/1.1.0/quick-start.html
sparkが起動している状態で以下を実行します。
scala> val textFile = sc.textFile("README.md")
textFile: org.apache.spark.rdd.RDD[String] = README.md MappedRDD[1] at textFile at <console>:12
scala> textFile.count()
res0: Long = 141
結果は141行でした。
実際に確認して出力内容に間違いがないか確認してみてください。
- 注意点
上記サンプル実行時に
val textFile = sc.textFile("README.md")
とファイルを読み込んでいる箇所ですが、
sparkがある場所(今回だと/usr/local/share/spark)
直下で実行しないとREADME.mdが存在しないけどどうなってんの?
って怒られますのでご注意を。
※直下で実行しない場合は絶対パスか相対パスで指定すればokです
おわりに
まだまだサンプル実行のレベルですが、
今後スタンドアロンで実行してみたりと
いろいろやってみる予定です。
何か新しい情報、こうやっているよーってのがありましたら
情報交換して頂けると嬉しいです。