Dataikuで独自のPython環境を利用する
はじめに
Dataiku Data Science Platform(Dataiku DSS)を利用する方法として、Dataiku DSSをVirtual Boxを使って利用する方法をご紹介しました。
Dataikuでは、pyenvやvirtualenvのような、Python環境を管理する仕組みが用意されています。今回は、Dataiku DSSで独自のPython環境を利用したいという場合に、その機能を利用して、独自のPython環境を作成する方法と、作成したPython環境をnotebookで使用する方法について紹介します。
独自のPython環境を作成する
1. Code Envs画面を表示します
Dataikuにログインした後、画面右上のキューブアイコンをクリックして、[Administrator]メニューをクリックします。
その後、画面右上にある[Code Envs]タブをクリックします。
2. 独自のPython環境を作成します
画面右上にある、[NEW PYTHON ENV]をクリックします。その後、表示される[New Python env]画面で、次の設定を行います。
- Deployment type:Managed by DSS(recommended)
- Name:(英数字で適宜入力します)
- Python:必要なPythonバージョンを指定します。例えば、Python 3.6を用いる場合は、[Python 3.6 (from PATH)]を指定します。
- Conda:チェックなしで大丈夫です。Condaを使用したい場合はチェックします。
- Mandatory packages, Jupyter:いずれもチェックしたままとします。
設定が完了したら、[CREATE]ボタンをクリックします。独自のPython環境が作成されます。
留意点
- Dataikuをインストールした環境において、[Python]で指定したバージョンのPythonはインストール済みで、かつそのバージョンの実行ファイルのパスが環境変数PATHに設定されている必要があります。Virtual Box版Dataikuアプライアンスを利用されている場合は、Python2.7とPython3.6がすでにインストールされていますので、そのバージョンは利用することができます。
- プロキシ環境で独自のPython環境を作成する場合は、あらかじめDataikuのAdministrator画面でプロキシ情報を設定してください。詳細はこちらを参照してください。
独自のPython環境に新たなPythonライブラリをインストールする
1. ライブラリをインストールするPython環境を選択し、ライブラリインストール画面を表示します
Code Envsタブで表示されるPython環境一覧の中で、ライブラリをインストールするPython環境に該当する[Name]のリンクをクリックします。クリックした後、画面左側の[Packages to install]をクリックします。
2. インストールするライブラリを指定します
画面右下の[REQUESTED PACKAGES(PIP)]でインストールするライブラリを設定します。設定した後、[SAVE AND UPDATE]ボタンをクリックします。ライブラリがインストールされます。
インストールされているか確認するには、画面左側の[Installed packages]をクリックします。
補足
[ADD SETS OF PACKAGES]ボタンをクリックすることで、機械学習で用いる標準的なライブラリを指定してインストールすることもできます。
独自のPython環境をnotebookで利用する
Dataikuのnotebookで独自のPython環境を利用する場合は、次のようにします。
[New Python notebook]画面の[Code env]で独自のPython環境を指定します。
あるいは、notebookのメニュー[Kernel]>[Change kernel]から独自のPython環境を指定します。
さいごに
Dataiku DSSで独自のPython環境を作成し、notebookで利用する方法について紹介しました。
プロジェクトごとに独自のPython環境を利用したい場合に、よろしければご参考ください。