はじめに
IBM Cloud Pak for Data as a Service(以下CP4DaaS)のNotebookにパッケージを導入したい場合、Notebook上でpipインストールするのではなく、パッケージの導入が定義された実行ランタイムをテンプレートとして作成しておき、Notebookに関連づけておくことで、Notebookを常にパッケージが導入された状態で使うことができます。
本記事ではCP4DaaSで実行ランタイムを使う基本的な方法と、使う上で便利なTipsをご紹介します。
環境定義の例
使い方の参考として、設定例を記載します。
CP4DaaSのGUIからプロジェクトを開き、「環境」タブで以下の操作をします。
「環境定義」セクションの右端に「新規環境定義」リンクがありますので、クリックします。
開いた「新規環境」画面で実行ランタイムの名前を入力し、「構成の定義」に適当な設定をして「作成」をクリックします。
作成された実行ランタイムの内容が画面に表示されます。ここに、以下のように実行ランタイムに必要な定義を記入します。
デフォルトで表示される文言に必要なpipインストールに関する追記をして、「適用」をクリックします(以下の画面赤枠の個所)。
参考まで、左側の「ソフトウェア構成の詳細」はデフォルトで導入済みのパッケージ一覧です。
ここでは、パッケージ"ibm-watson-studio-pipelines"をpipインストールしています。
"ibm-watson-studio-pipelines"は、CP4DaaSでMLOpsのパイプラインを実現するWatson Studio PipelineのSDKです。
これによって、Notebookから以下の指定をすることに相当する内容(pipインストールのアップデート)を実行ランタイムで定義していることになります。
!pip install -U ibm-watson-studio-pipelines
Notebookからの関連づけの例
プロジェクトの「資産」タブを開きます。
Notebookセクションで実行ランタイムと関連づけをするNotebookを選び、右端のドットが3つ縦に並んだアイコンをクリックします(カーソルをあてると表示されます)。
リストから「環境の変更」を選択します。
「Notebookを実行するランタイムを選択してください」で関連付けをするランタイムを選択して「関連付け」をクリックします。
環境起動時のログ確認方法
最後にTipsとして、実行ランタイムの実行ログを確認する方法を記載します。
Notebookから以下コマンドを実行します。
! ls /var/ibm/logs/
ログ・ファイルとして、以下のような名前のファイルがリストされます。
customization-YYYYMMDD_HHMMSS.log
該当するファイルを以下のようにcatで表示します。
! cat /var/ibm/logs/customization-20211108_073709.log
ログの内容を確認します。
おわりに
本記事ではCP4DaaSでNotebookを実行する際の実行ンタイムの設定について記載しました。機械学習を実装するNotebookでは前提のパッケージを実行ランタイムに導入することで、Notebook側でパッケージの導入を記述する必要がなくなるため、冗長性を排除でき、また環境構築の操作をNotebookに記述するデータ分析に関する操作と分離することができるため、管理を分かり易くする面でもおすすめです。