LoginSignup
8
0

More than 1 year has passed since last update.

DataSpider Servista で機械学習プロジェクトを作成 with GCP

Last updated at Posted at 2022-12-24

はじめに

Goole Cloud Next'22 でアナウンスのあった BigQuery で非構造データをサポートすることに触発され、DataSpider Servista からBiqQuery ML (以下 BQML と表記する)を操作してみました。本記事では DataSpider Servista と BigQuery を活用して、機械学習プロジェクトを作成した内容をまとめています。本記事を実行するためには主に以下のプラットフォーム、サービスを利用します。

  • DataSpider Servista: データ連携ツール
    • Google BigQuery アダプタ(以下 BigQuery アダプタと表記する): BigQuery を操作するためのアダプタ
    • Google Cloud Storage アダプタ(以下 GCS アダプタと表記する): Google Cloud Storage を操作するためのアダプタ
  • Google Colaboratory: ブラウザから Python を実行できるサービス
  • Google Cloud Platform: Google が提供するクラウドコンピューティングサービス

なお、本記事では DataSpider Servista のプロジェクトの新規作成、スクリプトの新規作成などの基礎的な内容は説明しません。

DataSpider Servista

DataSpider Servista(以下 DSS と表記する) はノンプログラミング・ノーコードでシステム間のデータやアプリケーションを連携する EAI ツールです。 DSS にはデータベース、アプリケーション、また主要クラウドサービスなどに対応した50種類以上のアダプタが存在し、機械学習に関連したアダプタは以下のとおりです。

  • DataRobot アダプタ
  • Azure Machine Learning アダプタ

今回は BigQuery アダプタのオペレーション検索系SQL実行より BQML を動かすことで、機械学習プロジェクトの作成を試みました。プロジェクト完成までの流れは以下のとおりです。

  • グローバルリソースの作成
  • モデルの学習
  • モデルのインポート
  • データの前処理
  • 前処理後のデータ書き込み
  • 予測

グローバルリソースの作成

まず初めに BigQuery アダプタおよびGCS アダプタで使用するグローバルリソースを作成します。そのためには GCP でサービスアカウントの作成、また対象アカウントの認証キーをJSON形式で作成する必要があります。認証キーを作成したら、対象のキーをグローバルリソースGoogle BigQuery接続設定およびGoogle Cloud Storage接続設定に設定し、接続テストを実行して、接続に成功することを確認します。
グローバルリソースの作成.png

モデルの学習

本項目には検索系SQL実行オペレーションでモデル学習Google Colaboratory でモデル学習がありますが、検索系SQL実行オペレーションでモデル学習ではモデルの学習はできないため、検索系SQL実行オペレーションでモデル学習の内容を実施する必要はありません。

検索系SQL実行オペレーションでモデル学習

  1. グローバルリソースの作成が完了したら、続いて DSS で新規プロジェクトおよびスクリプトを作成し、 BigQuery アダプタの検索系SQL実行オペレーションを用いてモデルの作成を試みます。検索系SQL実行オペレーションのプロパティ接続先に対象のグローバルリソースを設定します。

  2. プロパティアクションプロジェクトID一覧の更新を押下し、プロジェクトIDを更新します。このとき以下のエラーが発生する場合は Cloud Resource Manager API を有効にします。

    com.appresso.ds.dp.modules.adapter.gcp.bigquery.service.ResourceManagerServiceException: Google Resource Manager対する操作が失敗しました。HTTPステータスコード : 403, エラーコード : accessNotConfigured, メッセージ : Cloud Resource Manager API has not been used in project <Your Project Number> before or it is disabled. Enable it by visiting https://console.developers.google.com/apis/api/cloudresourcemanager.googleapis.com/overview?project=<Your Project Number> then retry. (以下省略)
    
  3. BQML でモデルを作成するために、プロパティSQL文にSQLを記述します。今回は BQML のチュートリアル分類モデルの作成を引用することとし、以下のSQLを設定します。 (チュートリアルのステップ3までを完了していることを前提)

    CREATE OR REPLACE MODEL
      `census.census_model`
    OPTIONS
      ( model_type='LOGISTIC_REG',
        auto_class_weights=TRUE,
        input_label_cols=['income_bracket']
      ) AS
    SELECT
      * EXCEPT(dataframe)
    FROM
      `census.input_view`
    WHERE
      dataframe = 'training'
    
  4. プロパティ保存先データセット名及び保存先テーブル名については以下の画像のとおり存在しない値を設定します。
    検索系SQL実行_学習.png

  5. 検索系SQL実行オペレーションの設定が完了したら、スクリプトキャンバスでStart検索系SQL実行Endをプロセスフローで繋ぎ、スクリプトを実行します。スクリプトを実行すると以下のエラーが発生します。
    スクリプト実行エラー.png

検索系SQL実行オペレーションではDDLを実行することはできないため、Google Colaboratory でモデル学習でモデルを学習します。

Google Colaboratory でモデル学習

ここでは Google Colaboratory でモデルを学習し、本モデルを GCS へ保存します。そのため、事前に GCS にモデル保存用のバケットを作成する必要があります。DecisionForests.ipynb にモデル作成およびモデルを GCS へ保存するためのサンプルコードを配置しました。本ノートブックを使用する場合は学習したモデルを保存するための GCP の Project ID と GCS のフォルダパスをノートブックに設定する必要があります。対象の値を設定後、ノートブックを上から実行すると対象のモデルを GCS に保存できます。

BigQuery でモデルのインポート

BigQuery では TensorFlow で作成したモデルをインポートすることができます。Google Colaboratory でモデル学習で作成した TensorFlow の決定木モデルを BigQuery にインポートするために以下の SQL を BigQuery で実行します。クエリが成功すると GCS に保存した決定木モデルが BigQuery のデータセットの中に保存されます。以下の SQL を実行するためには事前に<YOUR_BQ_DATASET_NAME>に該当するデータセットを BigQuery に作成する必要があリます。

CREATE OR REPLACE MODEL
  `<YOUR_BQ_DATASET_NAME>.<MODEL_NAME>`
OPTIONS
  ( MODEL_TYPE='TENSORFLOW',
    MODEL_PATH='<GCS_DIR_PATH>'
  )

データの前処理

ここではモデル学習時に使用したデータを流用して、データの前処理を DSS で行います。DecisionForests.ipynb で作成したモデルのカテゴリ変数についてはラベルエンコーディング (※モデルの精度は気にせず、扱う変数を減らすためにラベルエンコーディングを使用)を施しているため、DSS でも同様に入力するカテゴリ変数をラベルエンコーディングします。また、今回学習で使用した UC Irvine Machine Learning Repository の Bank Marketing には欠損値がないため、データの Null チェック、また欠損値が存在した場合の処置は考慮していません。DecisionForests.ipynb を実行すると Google Corabolatory インスタンスに/content/<yyyyMMdd>.csvが保存されます。本ファイルを DataSpider Server に保存し、データの前処理を行います。DSS でラベルエンコーディングするために、コンポーネントドキュメントMapperのロジックスイッチ判定による出力の切り替えを使用し、入力されるデータの文字列に応じてラベルエンコーディングするように設定しました。ドキュメントMapper 内のロジックは以下の画像のとおりです。

ラベルエンコーディング.png

データの前処理に関わる大まな流れは以下のとおりです。

  1. オペレーションCSVファイル読み取りでDataSpider Serverから入力データ<yyyyMMdd>.csvを読み込みます。
  2. コンポーネントドキュメントMapperで入力データのラベルエンコーディングを行います。
  3. オペレーションCSVファイル書き込みでDataSpider Serverに前処理後の入力データを書き込みます。

前処理後のデータ書き込み (GCS)

BQML を実行するためには入力データを BigQuery から操作できる場所に保存する必要があります。今回は BigQuery に入力データ用テーブル (データセット) を作成し、そこにデータを保存します。そのため、まずは前処理したデータを GCS へ保存します。DSS の GCS アダプタ、オペレーションファイル/フォルダ読み取りを使用することで GCS にファイルを保存することができます。ファイル/フォルダ読み取りオペレーションのプロパティ 接続先にはグローバルリソースの作成で作成したGoogle Cloud Storage接続設定を設定します。また GCS に前処理されたデータを保存するためのバケット (必要があればフォルダも) を作成する必要があリましす。プロパティの設定は以下の画像のとおりです。
GCSファイルフォルダ書込.png

前処理後のデータ書き込み (BigQuery)

予測する前の最後の手順として、GCS へ保存したデータを BigQuery のテーブルに書き込みます。 BigQuery アダプタのオペレーションテーブルデータ入力を使用することで、GCS に保存してるデータを BigQuery のテーブルに書き込めます。本操作を行うためには事前に書き込み先テーブルを作成 (定義) する必要があります。プロパティの設定は以下の画像のとおりです。
BQテーブルデータ入力.png

予測

ここでは前処理後のデータ書き込み (BigQuery)で保存したデータを決定木モデルに与えて予測を行います。予測の実行には BigQuery アダプタの検索系SQL実行オペレーションを使用します。検索系SQL実行のプロパティ接続先およびプロジェクトIDについては検索系SQL実行オペレーションでモデル学習で設定する値と同じものを設定します。また、事前に予測結果を保存するための保存先データセットおよび保存先テーブルを BigQuery に作成する必要があリます。

本オペレーションでは以下のSQL文を実行します。

SELECT
  *
FROM
  ML.PREDICT (MODEL `<YOUR_BQ_DATASET_NAME>.<MODEL_NAME>`,
    (
    SELECT
      *
    FROM
      `<INPUT_DATASET>.<INPUT_TABLE>`
    )
  )

検索系SQL実行オペレーションの設定値は以下のとおりです。プロパティ設定後にスクリプトを実行すると、予測結果が BigQuery のテーブルに保存されます。
検索系SQL実行_予測.png

スクリプト全体像

今回作成したプロジェクトの全体像は以下のとおりです。

  • 機械学習 (プロジェクト)
    • 予測実行 (スクリプト)
      • コンポーネントスクリプト呼び出し処理: 前処理からBQ入力データ書込を呼び出します。
      • コンポーネントスクリプト呼び出し処理: 予測を呼び出します。

予測実行スクリプトの内容は以下の画像のとおりです。
予測実行.png

また予測実行のスクリプト呼び出し処理で実行される前処理からBQ入力データ書込および予測の内容は以下の画像のとおりです。

前処理からBQ入力データ書込
予測タスク.png

予測
予測タスク.png

感想

  1. DSS は異なるタイプのアプリケーション・サービスを連携することに特化したツールであると再認識しました。今回、主に GCP 関連アダプタを使用してプロジェクトを作成したが、単に機械学習のみを回す場合は GCP だけでやりたいことを実現できます。但し、社内システムやその他サービス間でのデータ連携を実現する場合は GCP のみで解決することは難しく、GCP で実現できたとしても GCP の知識を持っていること、またコーディングできることが前提になるように思えます。一方で、DSS は基本的にノーコードでデータおよびアプリケーションを連携できるため、システム間の連携を実現したい方にとっては導入しやすいツールになっています。
  2. EAI ツールである DSS で強引に機械学習システムの運用を試みたが、データの前処理学習予測などの機械学習の各タスクをシームレスに行えないことが非常に辛いポイントでした。今回機械学習で使用した学習データ量は小さいものであるため、モデルの学習時間は非常に短いものでした。しかし、実際の機械学習ではより大きなデータセットを使用することになり、モデルの学習には数時間〜数日掛かるため、学習を実行するまでの作業をスムーズに行いたいものです。
  3. 機械学習向けのデータの前処理は専用ツールで行なったほうがいい。今回コードを書かずにできるだけ DSS で機械学習プロジェクトを完結させることを念頭に作業を行いました。そのため、データの前処理のためにドキュメントMapper で多数のロジックを配置することになり、画面内がロジックとマッピングリンクで覆い尽くされ、スキーマとロジック間の関係性が理解しにくいものとなリました。BQML を動かすためにデータの前処理を行うのであれば、 TRANSFORM 句を使用した方がより簡易に前処理を実施できます。TRANSFORM 句はモデルにデータを入力した際にデータの前処理を行うための定義となり、この定義はモデルの評価と予測時にも反映されます。
8
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
0