本記事の位置づけ
- 2023年12月21日時点の情報を元に記載しています
- SaaS版のETLツールであるDataStageに新しく追加された、DataStage-aaS Anywhereの概要および導入してみた結果を紹介します
DataStage-aaS Anywhereとは
ざっくり言うと
- 2023年11月9日に正式リリースされた新しい機能
- クラウド上でジョブを作成し、好きな環境で実行できる
もう少し詳しく
IBMのETLツールであるDataStageには、ソフトウェア版とSaaS版の2種類の提供形態があります。DataStage-aaS AnywhereはSaaSでありながら、データプレインと呼ばれるジョブを実行するエンジンを任意の環境にコンテナで配置することができるようになりました。
これにより、クラウド上でジョブを作成しつつ、データはオンプレのままジョブを実行といった使い方ができるようになります。
何がうれしいの?
- マネージドサービスのためインフラ運用コストは最小限に抑えることが可能
- データ転送にかかるコストの回避
- データに近い場所でデータ処理することによりパフォーマンスを向上
- コントロールプレインとデータプレインの間でのデータやり取りは無いためセキュリティ懸念を最小化できる
課金体系
執筆時点では、Extra Small Package、Small Package、Medium Package、Large Packageの4種類から選択できるようになっています。Small Package以上になると、あらかじめ一定数のVPC(仮想コア数)がライセンスに含まれています。
実際の情報は、以下のIBM Cloudのカタログを参照してください。
導入方法
DataStage-aaS Anywhereを使うためには、まずIBM Cloudのカタログ上でライセンス 1 を購入します。
サービスのプロビジョニング方法については、以下の記事を参照してください。
ここからはプロビジョニング以降の手順を紹介します。
1. プロジェクトを作成する
IBM Cloud Pak for Dataにログインし、新規のプロジェクトを作成します。
プロジェクトの作成手順は、以下の記事で紹介されています。
2. 必要な情報を入力し、スクリプトを生成する
2.1.リモート環境のエンジンを設定する画面
①1.で作成した新規のプロジェクトの中にある、管理のタブをクリック
②ツールの下にあるDataStageをクリック
③以下の画像のように、実行環境をリモートと選択
④インストール・スクリプトをクリック
2.2.前提条件を準備する
本記事ではコンテナー上へのデプロイメント手順を紹介します。
①デプロイメント・タイプはコンテナーを選択
②今回はDockerを使用。CentOSへのDockerのインストール手順は以下を参照しました。
③jqコマンドをLinuxにインストールする手順は以下を参考にしました。
④クラウドAPIキーを発行するには、前提条件中のリンクをクリック
詳細な手順は以下の記事にある、手順4以降を参照ください。
2.3.インストール・スクリプトの生成
※IBM Cloud Container Registry Keyの取得方法については別途作成予定
①2.2で用意した情報を詳細の構成に入力し、同意するをクリック
②スクリプトの生成をクリック。すると以下の画像のようにスクリプトが表示されます。
2.4. スクリプトを実行する
①以下のページにアクセスし、dsengine.shをダウンロードする
https://github.com/IBM/DataStage/tree/main/RemoteEngine/docker
②2.3の②で生成したスクリプトのうち、1つ目のコマンドを実行し、インスタンスを作成する
これでDataStage-aaS Anywhereの導入は完了です
使い方
1.新規資産を作成する
①プロジェクトの画面を開き、右上にある「新規資産」をクリックする
②グラフィカルビルダーのカテゴリーにある「DataStage」をクリックする
③フローの名称や説明を適宜入力し、右下の「作成」をクリックする
2.導入したエンジンを選択する
①1で作成したフローを開き、歯車マークをクリックする
②ランタイムのカテゴリにある環境に、導入したエンジンが表示されるのでその中からフローを実行したいエンジンを選択し、保存する。
注意事項
以下のIBM Cloudのカタログ上に記載があるように、リモート環境のエンジンを選択すると、そのプロジェクトではデフォルトの IBM Cloud serverless runtimeに戻すことはできません。
また、以下のページには使用できないコネクターなどの注意点が記載されているので、最新の情報は以下を参照ください。
-
ライセンス名にDataStage-aaS Anywhereの文言が入っているライセンスを選択する必要があります。 ↩