この記事は TDCソフト株式会社 Advent Calendar 2022 に参加しています。
概要
データアナリティクスプラットフォームである Dataiku にはオンプレミスで利用可能な無料版の Dataiku DSS が用意されています。
触ってみたかったので Amazon EC2 を使って構築してみました。
手順
以降の手順は次の資料に(そこそこ)従って作業しました。
1. Amazon EC2 インスタンスを作成する
今回は関連パッケージなどを確認しつつ構築したかったのでマーケットプレイスを使わず手動で構築しました。
必要なスペックは Requirements に記載のとおりです。
下記のとおり最小限のメモリで構築しましたが、構築後にクイックスタートを試してみた限りではスペックに問題はありませんでした。
マシンスペックさえ許せばノート PC にもインストールできそうです。
実案件では扱うデータのサイズに合わせて大きさを調整する必要があるのでしょう。
- インスタンスタイプ: t3.xlarge
- vCPU: 4
- Mem: 16GB
- Arch: x64
- OS: Amazon Linux 2
Dataiku DSS は Web ブラウザでアクセスして使用します。
後ほどインストール時にポート番号を指定しますが、ここで予め決めておいて Security group にて Inbound を許可しておくと行き来しなくて済みます。
Install Dataiku DSS on Linux に従って作業をすると 11000 番ポートを使用します。
2. EC2 インスタンスに SSH する
ここからの作業は EC2 インスタンス上の作業です。
公式ドキュメントが大変優秀だったので Linux を使い慣れている方であれば特に苦戦することはありません。
3. パッケージをダウンロードし解凍する
パッケージをダウンロードします。
$ wget https://cdn.downloads.dataiku.com/public/dss/11.0.2/dataiku-dss-11.0.2.tar.gz
$ tar xzf dataiku-dss-11.0.2.tar.gz
4. SOURCE_DIR と DATA_DIR を環境変数化する
後々何度か出てくるので環境変数化してしまいます。
※下記のコマンドは作業中のディレクトリで構築する想定になっています。
$ export SOURCE_DIR=$(pwd)/dataiku-dss-11.0.2
$ export DATA_DIR=$(pwd)/data
$ export PORT=11000
5. インストールを実行する
インストール用 shell スクリプトを実行します。
この時点では依存関係のあるパッケージをインストールしていないのでインストールに失敗します。
$ ${SOURCE_DIR}/installer.sh -d ${DATA_DIR} -p ${PORT}
~~~略~~~
*** Error: package git not found
*** Error: package nginx not found
*** Error: package ncurses-compat-libs not found
*** Error: package java-1.8.0-openjdk not found
*** Error: package compat-gcc-48-libgfortran not found
~~~略~~~
$
6. 必要なパッケージをインストールする
エラーメッセージに必要なパッケージが書いてあったのでそれに従ってインストールします。
nginx は Extras Library にあります。
$ sudo yum install git ncurses-compat-libs java-1.8.0-openjdk compat-gcc-48-libgfortran
$ sudo amazon-linux-extras install nginx1
7. 再度インストールを実行する
必要なパッケージをインストールしたので今度は無事インストールできます。
インストールが成功すると、Dataiku DSS の起動コマンドなどが表示されます。
$ ${SOURCE_DIR}/installer.sh -d ${DATA_DIR} -p ${PORT}
~~~略~~~
***************************************************************
* Installation complete (DSS node type: design)
* Next, start DSS using:
* '${DATA_DIR}/bin/dss start'
* Dataiku DSS will be accessible on http://<SERVER ADDRESS>:${PORT}
*
* You can configure Dataiku DSS to start automatically at server boot with:
* sudo -i "${SOURCE_DIR}/scripts/install/install-boot.sh" ${DATA_DIR} ${USER}
***************************************************************
$
8. Dataiku DSS を起動する
バックエンドのサービスがいくつか立ち上がるのを少し待ちます。
問題なく起動すればプロンプトが返ってきます。
残念ながら(?)エラーが発生しなかったため、ここでどのようなエラーメッセージが返ってくるか確認できませんでした。
$ ${DATA_DIR}/bin/dss start
Waiting for DSS supervisor to start ...
backend STARTING
ipython STARTING
nginx STARTING
DSS started, pid=5358
Waiting for DSS backend to start .........
$
9. インスタンス起動時に Dataiku DSS を自動的に起動するようにする
インスタンスの起動時に自動起動するようにしておかないと後で面倒なので自動化します。
$ sudo -i ${SOURCE_DIR}/scripts/install/install-boot.sh ${DATA_DIR} ${USER}
10. Dataiku DSS に接続する
Web ブラウザで Dataiku DSS にアクセスします。
初回起動時はカッコイイ画面が表示されます。
無償版のまま設定を進めるときは NO を選択します。
設定を進めると初期 ID とパスワードが表示されます。
安定の admin / admin ですね。
11. パスワードを変更する
パスワードがそのままなのは良くないので変えておきます。
右上の丸いアイコン → 歯車のアイコン と進み、My Account タブで変更できます。
終わりに
以上で構築は完了です。
普通こういう作業をしていくとうまくいかないポイントがどこかにあります。
その都度あれこれ調査が必要になるものですが、今回は全くそういうことがありませんでした(わざわざ記事にする意味……)。
あとは Dataiku Academy を使って学習を進めるなり、とにかく触り倒していくだけです。
他のデータアナリティクスツールとどんな違いがあるのか、触ってみるのが楽しみです。
参考
ここまでのリンクの再掲です。