シリーズのリンク
- 機能紹介編(一度はお読みください)
- インストール・起動・停止編
- 設定編
- Sparkインタープリタ編
- その他インタープリタ編(予定)
要約
- Apache Zeppelinはバイナリ解凍/Dockerイメージのプル/HomeBrew/ソースのビルド等でインストールできる。
- Apache ZeppelinはAmazon EMR/Cloud Dataprocにもインストールできる。
Apache Zeppelinのインストール方法
Apache Zeppelinでは以下の方法でインストールできます。
- バイナリ解凍によるインストール
- Dockerイメージのプルによるインストール
- HomeBrewによるインストール
- ソースのビルドによるインストール
またローカルPCやIaaSといった自分で運用する環境以外にも
下記にインストールできます。
それぞれの方法について説明していきます。
バイナリ解凍の場合
解凍するバイナリのダウンロードはこのページから行います。
このページからは全インタープリタ入りのものか
Sparkインタープリタだけ入っていて後にコマンドで他のを追加できる
2種類のバイナリをダウンロードできます。
個人的に工数の関係上前者がお勧めなので
これによるインストール方法を例示いたします。
下記画像で表示されている2つの青いボタンのうち、
zeppelin-(バージョン)-bin-all.tgz
とのような文字列が
表示されている方をクリックします。
クリック後に別ページに遷移しますが、
ここで表示されるミラーサイトへのリンクを
クリックしてバイナリをダウンロードします。
Apache Zeppelinをインストールしたいディレクトリにバイナリを移動させた後、
そのディレクトリにてダウンロードしたバイナリを下記のコマンドで解凍します。
tar -xzvf zeppelin-(バージョン)-bin-all.tgz
起動等のコマンドは以下の通りです。
# インストールしたディレクトリに移動
cd zeppelin-(バージョン)-bin-all
# 起動
./bin/zeppelin-daemon.sh start
# 停止
./bin/zeppelin-daemon.sh stop
# 再起動
./bin/zeppelin-daemon.sh restart
Dockerイメージのプルの場合
このインストール方法の場合にはあらかじめ下記をインストールする必要があります。
OS | インストール対象物 |
---|---|
MacOS | Docker Desktop for Mac |
Windows | Docker Desktop for Windows |
Linux | Docker Engine |
下記のコマンドのようにApache Zeppelinの
Dockerイメージをプルすることでインストールできます。
docker pull apache/zeppelin:(バージョン)
起動等のコマンドは以下の通りです。
# 起動
docker run \
-p 8080:8080 \
-d \
--rm \
-v (ログを格納するディレクトリのパス)/logs:/logs \
-v (ノートブックを格納するディレクトリのパス)/notebook:/notebook \
-e ZEPPELIN_ADDR='0.0.0.0' \
-e ZEPPELIN_LOG_DIR='/logs' \
-e ZEPPELIN_NOTEBOOK_DIR='/notebook' \
--name zeppelin \
apache/zeppelin:(バージョン)
# 停止
docker stop zeppelin
HomeBrewの場合
このインストール方法の場合にはあらかじめ下記のように
環境のOSに応じた方法でHomebrewをインストールする必要があります。
WindowsではWSLでのみこの方法に対応しています。
OS | インストール方法記載ページ |
---|---|
MacOS | https://brew.sh/index_ja |
Windows・Linux | https://docs.brew.sh/Homebrew-on-Linux |
下記のコマンドを実行することでインストールできます。
brew install apache-zeppelin
起動等のコマンドは以下の通りです。
# インストールしたディレクトリに移動
cd /usr/local/Cellar/apache-zeppelin/(バージョン)
# 起動
./bin/zeppelin-daemon.sh start
# 停止
./bin/zeppelin-daemon.sh stop
# 再起動
./bin/zeppelin-daemon.sh restart
ソースのビルドの場合
このインストール方法の場合にはあらかじめ下記をインストールしておく必要があります。
下記のようなコマンドを実行することでインストールできます。
なおこのインストールにおいてはMavenの
設定ファイルであるpom.xmlでの指定の関係上、
JDKは1.8、Scalaは2.11にバージョンを切り替えております。
それぞれのパッケージのバージョンは何が適切なのかは
ローカルリポジトリのディレクトリにて
コマンドmvn help:all-profiles
を実行して
各プロファイルを確認する必要があります。
Apache Zeppelinのバージョン0.8.2においては
それぞれ下記バージョンを指定してインストールできます。
# zeppelinのリポジトリをクローン
git clone -b v(バージョン) https://github.com/apache/zeppelin.git
# Apache Zeppelinのローカルリポジトリに移動
cd ~/zeppelin
# 全てのpom.xmlで指定されているScalaのバージョンを2.11に変更
./dev/change_scala_version.sh 2.11
# ソースコードをビルド
mvn clean package \
-DskipTests \
-Pspark-2.4 \
-Phadoop2 \
-Pscala-2.11
起動等のコマンドは以下の通りです。
# Apache Zeppelinのローカルリポジトリに移動
cd ~/zeppelin
# 起動
./bin/zeppelin-daemon.sh start
# 停止
./bin/zeppelin-daemon.sh stop
# 再起動
./bin/zeppelin-daemon.sh restart
Amazon EMRでのインストール
あらかじめ下記を用意しておきます。
EMRコンソールの下記画像のクラスターを作成
の青いボタンをクリックします。
遷移後のページにて詳細オプションに移動する
のリンクをクリックします。
これで表示された下記画像の画面の上部にあるソフトウェア設定
のチェックボックスのうち
Hadoop、Spark、Zeppelinを選択します(必要あればその他を選択します)。
あとはそれ以外の設定はデフォルトのままで構いませんので
ステップ4に遷移するまで次へ
との文字列の青いボタンを同様にクリックしていきます。
ステップ4に遷移した際にあらかじめ作成しておいたEC2キーペアを選択して
クラスターを作成
の青いボタンをクリックしてクラスタを作成します。
クラスタ作成完了後に下記コマンドを実行して
ローカルポートフォワーディングをします(Windowsの場合はWSLを用いてください)。
こうすることでブラウザでhttp://localhost:(未使用のローカルポート)
の
URLを指定することでApache Zeppelinにアクセスできます。
ssh -i (作成したEC2キーペアへのパス) \
-NL (未使用のローカルポート):(クラスタのマスタのパブリックDNS):8890 \
hadoop@(クラスタのマスタのパブリックDNS)
このsshの接続は応答を返さないため、
作業が終わったら強制終了してください。
Cloud Dataprocでのインストール
GCPコンソールでCloud Dataprocの画面を開いて
下記画像のクラスタを作成
のリンクをクリックしてクラスタ作成を行います。
遷移後の画面下部にある下記画像の
コンポーネントゲートウェイ
のチェックボックスを選択し、
さらに詳細オプション
のリンクをクリックします。
クリック後に下記画像のコンポーネントを選択
のボタンをクリックします。
表示されるパネルで下記画像のようにZeppelin Notebook
のチェックボックスを選択し、
パネル下部にある選択
の青いボタンをクリックします。
戻った画面下部にある作成
の青いボタンをクリックすることでクラスタを作成します。
クラスタ作成完了後にGCPコンソールでCloud Dataprocのクラスタ
の一覧を表示し
生成したクラスタの名前のリンクをクリックします。
遷移後に下記画像のウェブインターフェース
のリンクをクリックします。
表示後に下記画像のコンポーネントゲートウェイ
以下にある
Zeppelin
のリンクをクリックすることでApache Zeppelinにアクセスできます。
つづき
次回は設定編です。