LoginSignup
0
1

More than 1 year has passed since last update.

AWS公式資料で挑むMLS認定(11)-Amazon SageMakerチュートリアル(XGBoostモデルの構築)

Last updated at Posted at 2022-05-22
[前回] AWS公式資料で挑むMLS認定(10)-Amazon SageMakerの基本

はじめに

今回は、Amazon SageMaker公式チュートリアルを通してみます。
抽象的な理論を、実践しながら理解するのが近道と感じますので。

※ 余談: 検証に必要なAWS料金について
以前AWS Innovateセッション視聴し、頂いたAWSクレジットで賄っています。

Amazon SageMakerのおさらい

  • 機械学習(ML)モデルを迅速に構築、トレーニング、デプロイ可能な、フルマネージド型サービス
  • 通常、MLモデルのPoCと本番移行は複雑で時間がかかる
    • モデルのトレーニングに、膨大な量のデータ管理が必要
    • トレーニングに最適なアルゴリズムを選択する必要
    • トレーニングに必要な計算能力(インフラストラクチャ)の管理が必要
  • Amazon SageMakerを使用することで
    • MLモデルの構築とデプロイが簡単になる
    • 幅広い選択肢から適切なアルゴリズムとフレームワークを選択可能
    • ペタバイト規模のモデルトレーニングに必要なインフラを使用可能で管理不要

チュートリアルの概要

  • AWSハンズオンチュートリアル
    Amazon SageMaker を使用して機械学習モデルを構築、トレーニング、デプロイ

  • チュートリアルのシナリオ

    • 銀行で働く機械学習デベロッパーという設定
    • ミッションは、顧客が預金証書(CD)の申し込みを行うかの予測モデルを開発
  • チュートリアルで学ぶ内容

    • SageMakerノートブックインスタンスを作成
    • データの準備
    • データから学習するため、モデルのトレーニング
    • モデルのデプロイ
    • MLモデルのパフォーマンス評価
  • トレーディングに使用するデータセット

    • Bank Marketing Data Setを使用
      • データセットに含まれる内容
        • 顧客の人口統計
        • マーケティングイベントへの反応
        • 外部環境要因に関する情報
    • データはラベル付けされている
      • データセットの列には、銀行からオファーされた商品に顧客が申し込みを行ったか否かが示されている
    • カリフォルニア大学アーバイン校により監修された機械学習リポジトリから公開されている

チュートリアルのゴール

  • Amazon SageMakerを使用し、機械学習モデルXGBoost

    • 構築
    • トレーニング
    • デプロイ
    • モニタリング
  • XGBoost(eXtreme Gradient Boosting / 勾配ブースティング回帰木)とは

    • 勾配ブースティング決定木(Gradient Boosting Decision Tree)アルゴリズムを実装したオープンソースのライブラリ
    • 勾配ブースティングと呼ばれるアンサンブル学習と、決定木を組み合わせた手法
    • 勾配ブースティングとは
      • 教師あり学習アルゴリズム
      • 回帰や分類などのタスクのための機械学習手法
      • 弱い予測モデル(weak prediction model)のアンサンブルの形で予測モデルを生成
    • アンサンブルとは
      • モデルの汎化性能を向上させるため、個々に学習した複数モデルを融合させる方法
      • 汎化性能とは、モデル学習時に訓練データだけでなく、未知の新たなデータを予測できる性能(能力)
        • 例えば、天気予測モデルで明日の天気を当てられるか
    • XGBoostの機能
      • 回帰、分類(バイナリとマルチクラス)、ランキング問題に使用可能
      • 様々なデータ型、関係、分布を処理可能
      • 様々なファインチューニング可能ハイパーパラメータを処理可能

チュートリアル開始

ステップ1: データ準備用にAmazon SageMakerノートブックインスタンスを作成

主な作業

  • データのダウンロード/処理に使用するノートブックインスタンスを作成
  • Amazon SageMakerからS3へのアクセスに必要なIAMロールを作成

作業手順

  • a. Amazon SageMakerコンソールにサインインし

    • 右上のAWSリージョンを選択
      • 今回はアジアパシフィック(東京)を選択
        image.png
  • b. 左側のナビゲーションペインで

    • ノートブックインスタンスを選択
      image.png
  • c. ノートブックインスタンスの作成ページのノートブックインスタンス設定ボックスで

    • 次のフィールドに入力
      • ノートブックインスタンス名
        • SageMaker-Tutorialと入力
      • ノートブックインスタンスタイプ
        • ml.t2.mediumを選択
      • Elastic Inference
        • デフォルトのなしのまま
  • d. アクセス許可と暗号化セクションのIAMロールプルダウンメニューで

    • 新しいロールの作成を選択
    • IAMロールを作成するダイアログボックスで
      • 任意のS3バケットを選択
      • 右下のロールの作成ボタンをクリック
        image.png
  • e. 右下のノートブックインスタンスを作成ボタンをクリック

    • ノートブックインスタンスセクションで
      • 新しいSageMaker-Tutorialノートブックインスタンスが保留中ステータスで表示される
      • ステータスInServiceに変わったら、ノートブック準備完了
        image.png

ステップ 2: データの準備

主な作業

  • Amazon SageMakerノートブックインスタンスを使用し、機械学習モデルのトレーニングに必要なデータを前処理
  • そのデータをAmazon S3にアップロード

作業手順

  • a. Jupyterを開くを選択

  • b. Jupyterで新規を選択し、Nodebookプルダウンメニューからconda_python3を選択
    image.png

  • c. Jupyterノートブックの新しいコードセルで

    • 以下のコードをコピー/貼り付ける
      • コードの内容
        • 必要なライブラリをインポート
        • データの準備
        • MLモデルのトレーニングとデプロイに必要な環境変数を定義
    • 実行を選択
# import libraries
import boto3, re, sys, math, json, os, sagemaker, urllib.request
from sagemaker import get_execution_role
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import Image
from IPython.display import display
from time import gmtime, strftime
from sagemaker.predictor import csv_serializer

# Define IAM role
role = get_execution_role()
prefix = 'sagemaker/DEMO-xgboost-dm'
my_region = boto3.session.Session().region_name # set the region of the instance

# this line automatically looks for the XGBoost image URI and builds an XGBoost container.
xgboost_container = sagemaker.image_uris.retrieve("xgboost", my_region, "latest")

print("Success - the MySageMakerInstance is in the " + my_region + " region. You will use the " + xgboost_container + " container for your SageMaker endpoint.")

image.png

  • d. S3バケットを作成し、お客様データを格納
    • 以下のコードをコピーし、次のコードセルに貼り付ける
    • bucket_nameを一意のS3バケット名に置き換える
    • 実行を選択
bucket_name = 'mytest-s3-bucket-name'
s3 = boto3.resource('s3')
try:
    if  my_region == 'us-east-1':
      s3.create_bucket(Bucket=bucket_name)
    else: 
      s3.create_bucket(Bucket=bucket_name, CreateBucketConfiguration={ 'LocationConstraint': my_region })
    print('S3 bucket created successfully')
except Exception as e:
    print('S3 error: ',e)

image.png

  • e. SageMakerインスタンスにデータをダウンロードし、データフレームにロード
    • 以下のコードをコピーし、次のコードセルに貼り付ける
    • 実行を選択
try:
  urllib.request.urlretrieve ("https://d1.awsstatic.com/tmt/build-train-deploy-machine-learning-model-sagemaker/bank_clean.27f01fbbdf43271788427f3682996ae29ceca05d.csv", "bank_clean.csv")
  print('Success: downloaded bank_clean.csv.')
except Exception as e:
  print('Data load error: ',e)

try:
  model_data = pd.read_csv('./bank_clean.csv',index_col=0)
  print('Success: Data loaded into dataframe.')
except Exception as e:
    print('Data load error: ',e)

image.png

  • f. データをシャッフルし、トレーニングデータとテストデータに分割
    • 以下のコードをコピーし、次のコードセルに貼り付ける
      • コードの内容
        • トレーニングデータとしてデータの70%(顧客)を使用
          • 勾配ベースの最適化を使用し、モデルパラメータを繰り返し改良
          • 勾配ベースの最適化とは
            • モデル損失関数の勾配を使用し
            • モデルエラーを最小化するモデルパラメータ値を見つける方法
        • テストデータとして残りの30%(顧客)を使用
          • モデルのパフォーマンス評価
          • モデルの汎化性能を測定
    • 実行を選択
train_data, test_data = np.split(model_data.sample(frac=1, random_state=1729), [int(0.7 * len(model_data))])
print(train_data.shape, test_data.shape)

image.png

ステップ3: MLモデルをトレーニング

主な作業

‐ トレーニングデータセットを使用し、機械学習モデルをトレーニング

作業手順

  • a. Jupyterノートブックの新しいコードセルで
    • 以下のコードをコピーし、貼り付ける
      • コードの内容
        • トレーニングデータのヘッダーと最初の列を再フォーマットし、S3バケットからデータをロード
        • Amazon SageMakerの事前構築済みXGBoostアルゴリズムの使用に必要
    • 実行を選択
pd.concat([train_data['y_yes'], train_data.drop(['y_no', 'y_yes'], axis=1)], axis=1).to_csv('train.csv', index=False, header=False)
boto3.Session().resource('s3').Bucket(bucket_name).Object(os.path.join(prefix, 'train/train.csv')).upload_file('train.csv')
s3_input_train = sagemaker.inputs.TrainingInput(s3_data='s3://{}/{}/train'.format(bucket_name, prefix), content_type='csv')

image.png

  • b. Jupyterノートブックの次のコードセルで
    • 以下のコードをコピーし、貼り付ける
      • コードの内容
        • Amazon SageMakerセッションを設定
        • XGBoostモデル(予測ツール)のインスタンスを作成
        • モデルのハイパーパラメーターを定義
    • 実行を選択
sess = sagemaker.Session()
xgb = sagemaker.estimator.Estimator(xgboost_container,role, instance_count=1, instance_type='ml.m4.xlarge',output_path='s3://{}/{}/output'.format(bucket_name, prefix),sagemaker_session=sess)
xgb.set_hyperparameters(max_depth=5,eta=0.2,gamma=4,min_child_weight=6,subsample=0.8,silent=0,objective='binary:logistic',num_round=100)

image.png

  • c. トレーニングジョブを開始
    • 以下のコードをコピーし、次のコードセルに貼り付ける
      • コードの内容
        • ml.m4.xlargeインスタンスで勾配最適化を使用し、モデルをトレーニング
    • 実行を選択
xgb.fit({'train': s3_input_train})

image.png

  • 数分待つと、Jupyterノートブックにトレーニングログが生成される

image.png

2022-05-22 05:53:36 Starting - Starting the training job...
2022-05-22 05:54:03 Starting - Preparing the instances for trainingProfilerReport-1653198815: InProgress
.........
2022-05-22 05:55:30 Downloading - Downloading input data...
2022-05-22 05:56:06 Training - Downloading the training image......
2022-05-22 05:57:02 Training - Training image download completed. Training in progress..Arguments: train
[2022-05-22:05:57:05:INFO] Running standalone xgboost training.
[2022-05-22:05:57:05:INFO] Path /opt/ml/input/data/validation does not exist!
[2022-05-22:05:57:05:INFO] File size need to be processed in the node: 3.38mb. Available memory size in the node: 8420.92mb
[2022-05-22:05:57:05:INFO] Determined delimiter of CSV input is ','
[05:57:05] S3DistributionType set as FullyReplicated
[05:57:06] 28831x59 matrix with 1701029 entries loaded from /opt/ml/input/data/train?format=csv&label_column=0&delimiter=,
[05:57:06] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 30 extra nodes, 14 pruned nodes, max_depth=5
[0]#011train-error:0.100482
[05:57:06] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 30 extra nodes, 14 pruned nodes, max_depth=5
[1]#011train-error:0.099858
... ... ...
[05:57:10] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 0 extra nodes, 38 pruned nodes, max_depth=0
[98]#011train-error:0.093927
[05:57:10] src/tree/updater_prune.cc:74: tree pruning end, 1 roots, 0 extra nodes, 32 pruned nodes, max_depth=0
[99]#011train-error:0.093892

2022-05-22 05:57:25 Uploading - Uploading generated training model
2022-05-22 05:57:25 Completed - Training job completed
Training seconds: 115
Billable seconds: 115

ステップ4: モデルのデプロイ

主な作業

  • Amazon SageMakerのエンドポイントに対し、訓練されたモデルをデプロイ
  • リフォーマット済みCSVデータをロード
  • モデルを実行し、予測を作成

作業手順

  • a. Jupyterノートブックの新しいコードセルで
    • 以下のコードをコピーし、貼り付ける
      • コードの内容
        • モデルをサーバーにデプロイ
        • アクセス可能なSageMakerエンドポイントを作成
    • 実行を選択
xgb_predictor = xgb.deploy(initial_instance_count=1,instance_type='ml.m4.xlarge')
  • 数分待つと

image.png

  • b. テストデータの顧客が、銀行商品に申し込みを行うか予測
    • 以下のコードを次のコードセルにコピー
    • 実行を選択
from sagemaker.serializers import CSVSerializer

test_data_array = test_data.drop(['y_no', 'y_yes'], axis=1).values #load the data into an array
xgb_predictor.serializer = CSVSerializer() # set the serializer type
predictions = xgb_predictor.predict(test_data_array).decode('utf-8') # predict!
predictions_array = np.fromstring(predictions[1:], sep=',') # and turn the prediction into an array
print(predictions_array.shape)

image.png

ステップ5: モデルの性能評価

主な作業

  • 機械学習モデルの性能と正確性を評価

作業手順

  • Jupyterノートブックの新しいコードセルで
    • 以下のコードをコピーし、貼り付ける
      • コードの内容
        • 混同行列で実値と予測値を比較
          • 混同行列とは、アルゴリズムの性能を可視化するための特有の表配置
            • 誤差行列(error matrix)とも呼ばれる
    • 実行を選択
cm = pd.crosstab(index=test_data['y_yes'], columns=np.round(predictions_array), rownames=['Observed'], colnames=['Predicted'])
tn = cm.iloc[0,0]; fn = cm.iloc[1,0]; tp = cm.iloc[1,1]; fp = cm.iloc[0,1]; p = (tp+tn)/(tp+tn+fp+fn)*100
print("\n{0:<20}{1:<4.1f}%\n".format("Overall Classification Rate: ", p))
print("{0:<15}{1:<15}{2:>8}".format("Predicted", "No Purchase", "Purchase"))
print("Observed")
print("{0:<15}{1:<2.0f}% ({2:<}){3:>6.0f}% ({4:<})".format("No Purchase", tn/(tn+fn)*100,tn, fp/(tp+fp)*100, fp))
print("{0:<16}{1:<1.0f}% ({2:<}){3:>7.0f}% ({4:<}) \n".format("Purchase", fn/(tn+fn)*100,fn, tp/(tp+fp)*100, tp))

image.png

  • 予測結果の分析
    • テストデータにおける顧客の90%に対し、預金証書申込みの予測精度
      • 申込者に対する予測精度: 65%(278/429)
      • 非申込者に対する予測精度: 90%(10,785/11,928)

ステップ6: クリーンアップ

主な作業

  • チュートリアルで使用したリソースを終了
    ※ 重要: リソースを終了しないと料金が発生します

作業手順

  • a. エンドポイントを削除
    • Jupyterノートブックで、以下のコードをコピーし、貼り付ける
    • 実行を選択
xgb_predictor.delete_endpoint(delete_endpoint_config=True)

image.png

  • b. トレーニングアーティファクトとS3バケットを削除
    • Jupyterノートブックで、次のコードをコピーし、貼り付ける
    • 実行を選択
bucket_to_delete = boto3.resource('s3').Bucket(bucket_name)
bucket_to_delete.objects.all().delete()

image.png

  • c. SageMaker Notebookを削除
    • SageMaker Notebookを停止
      • SageMakerコンソールを開く
      • 左メニューのノートブックで、ノートブックインスタンスを選択
      • チュートリアル用に作成したノートブックインスタンスを選択
      • アクションから停止を選択
      • ノートブックインスタンスが停止するまで数分待つ
        • ステータスStoppedに変わったら、次のステップに進む
          image.png
    • SageMaker Notebookを削除
      • アクションを選択
      • 削除を選択
        image.png

チュートリアルのまとめ

  • Amazon SageMakerを使用し、機械学習モデルの下記操作を勉強
    • 準備
    • トレーニング
    • デプロイ
    • 評価
  • Amazon SageMakerの特徴
    • トレーニングデータへの接続が速い
    • アプリケーションに最適なアルゴリズムと枠組みを選択
      • MLモデルの構築が容易
    • ペタバイト規模のモデル訓練に必要なインフラストラクチャを管理

おわりに

Amazon SageMakerのチュートリアルを実施しました。
感想は使い勝手がよいでした。
再度、各フェーズの理論根拠を、ソースコードレベルで、
しっかり復習する必要ありそうです。
次回も、Amazon SageMaker続きます。お楽しみに。

[次回] AWS公式資料で挑むMLS認定(12)-Amazon SageMaker Studio
0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1