Apache Sparkのインストール方法(MacOSX)
※Sparkを使うにはJREとPythonがインストールされていなればなりません
以下のバージョンで良い場合は、下記のリンクをクリックするとすぐダウンロードできます。
Spark release: 2.3.1(Jun08 2018)
package type: Pre-build for apache Hadoop 2.7 and later
spark-2.3.1-bin-hadoop2.7.tgz
http://ftp.yz.yamagata-u.ac.jp/pub/network/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
上記のバージョン以外を希望する場合は以下の手順を実施してください
下記のサイトにアクセス
https://spark.apache.org/downloads.html


ダウンロード後、解凍とフォルダの移動
ダブルクリックで解凍し、フォルダ内を丸ごとコピーし適当な場所に移す
confフォルダ内のlog4j.propertiesの一部分を書き換える
- log4j.rootCategory=INFO, consoleの行のINFOをWARNにする
log4j.properties.template
# Set everything to be logged to the console
log4j.rootCategory=WARN, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
- confフォルダ内のlog4j.properties.templateの名前をlog4j.propertiesにする
Terminalからダウンロードしたフォルダまで移動し、
binフォルダ内のpyspark(scalaの場合はspark-shell)を起動する
Terminal
cd /ダウンロードした場所までのパス/spark
bin/pyspark
以下のような画面が表示されれば完了
Terminal
Python 3.6.5 |Anaconda, Inc.| (default, Apr 26 2018, 08:42:37)
[GCC 4.2.1 Compatible Clang 4.0.1 (tags/RELEASE_401/final)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
18/09/01 22:35:43 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.3.1
/_/
Using Python version 3.6.5 (default, Apr 26 2018 08:42:37)
SparkSession available as 'spark'.
>>>