3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

AWS初心者がSageMaker Canvasでデータを予測することを実現するまでにやったこと

Last updated at Posted at 2023-07-02

はじめに

この記事はSagemaker Canvasをこれから使いたい方や環境構築で躓いてしまっている方に向けた記事となっています。私がSageMaker Canvasの環境を構築した時にしたことを記録したものです。ドメイン作成など環境を構築して、簡単に検証するところまで実施しています。
超初心者向けです。
わかりやすいように画像を多めに張り付けたつもりなので参考になれば幸いです。

Amazon SageMaker Canvasとは

Amazon SageMaker CanvasはAWSが提供している、簡単に機械学習を用いて訓練データを学習し、予測などができるサービスです。
Machine Learning(ML)の経験やコーディングのスキルが不要で、誰でも簡単に使うことができます。
参考:Amazon SageMaker Canvas

筆者のAWSスキル

・ハンズオンの経験:EC2インスタンスの立ち上げやS3バケット、IAMロールの作成ができる程度
・SageMakerの経験:経験0
・筆者の気持ち:できるだけGUIで頑張りたい

SageMaker Canvasを使ったときの備忘録

SageMaker Canvas上でデータファイルを直接置くこともできますが、ユースケースとしてはS3にデータを置き、それをSageMaker Canvas上で読みこむことが多いと思いますので今回はその方法で実装しました。

Sagemakerドメインの作成

SageMaker CanvasおよびSageMaker Studioを使用するには最初にドメインの作成が必要です。
image.png

作成モード:高速セットアップ(1分)
ドメイン名:自由に付けてOK
ユーザプロファイル:デフォルトで値が入っているのでそちらで問題ありません。変更も可能です。
実行ロール:下記で説明

SageMakerのドメインを作成する際の実行ロールは、私は下のユーザプロファイルの「新しいロールの作成」から作成してつけました。

image.png

「新しいロールの作成」をクリックすると、下図の画面が出てきます。
image.png

セキュリティ上問題ないのであれば任意のS3バケットにする方が簡単にできると思います。
私はこのときSageMaker用のS3バケットを作成していなかったので任意のS3バケットにしました。

S3をこれから作成する人にとって、画像の下の方にある4つの任意の条件はとても重要です。私はここでハマりました。この任意のルールにのっとったS3バケットないしオブジェクトにしないとSageMaker Canvasでデータセットを作成するときに、対象ファイルを選択できませんので注意してください。

  • 名前に「sagemaker」が含まれる任意の S3 バケット ← 筆者はこれにしました。
  • 名前に「sagemaker」が含まれる任意の S3 オブジェクト
  • タグ「sagemaker」と値「true」が含まれる任意の S3 オブジェクト
  • SageMaker へのアクセスを許可するバケットポリシーを持つ S3 バケット

ロールを作成して、送信のボタンを押すと下の画面になります。これでドメインの作成は完了です。
image.png

作成できたドメインの名前の部分をクリックすると詳細情報確認とドメインの起動画面に移ります。
右側で起動>Canvasを選択してください。

image.png

起動すると下図のような画面になります。

image.png

image.png

S3バケットの作成

上述の通り、筆者は「sagemaker」が名前に含まれるS3バケットを作成しました。

S3にローカルから直接ファイルを置きたいとき、CORS(Cross-Origin Resource Sharing)の設定をする必要があります。(筆者はここでも詰まりました)
設定方法は簡単で、S3バケットのアクセス許可の画面の下の方にあるCORSの設定画面から下記の設定を記入するだけです。(コピペでokです!)

[
    {
        "AllowedHeaders": [
            "*"
        ],
        "AllowedMethods": [
            "POST"
        ],
        "AllowedOrigins": [
            "*"
        ],
        "ExposeHeaders": []
    }
]

ここまでできたら、アップロード画面から訓練データとテストデータをアップロードします。

訓練データおよびテストデータの作り方、ポイント

データセットはいろいろなところに落ちているので、「データセット 無料」などで調べてみてください。私はKaggleのデータをよく使用しています。

データセットを作るといわれると少し難しそうですよね。でも意外と簡単です。

①データセットを1つとりあえずダウンロードする。
②データを8:2(train:test)に分ける。
③予測したい項目を決め、testの方のその項目を全部消す(ヘッダーは残す)
④csvファイルで保存する。(※文字コードがUTF-8でないと読み込んでくれません
⑤ファイルが約1MBであることを確認します。(筆者が最初実施した3MBのファイルはデータが重すぎたため読み込んでくれませんでした。)

SageMaker Canvasでデータの訓練、検証

起動したSageMaker Canvasから、My modelsに行き、モデルを作成します。
筆者はデータの予測がしたかったのでPredict analysisを選択しました。

・Model name:自由につけてOK
・Problem type:Predict analysis

image.png

image.png

次にデータセットをSageMaker Canvasで作っていきます。

DatasetsタブのCreate>tabularから、任意のデータセットの名前を入力してCreateします。

image.png

image.png

その次の画面でS3からデータセットのtrainデータのファイルを選択します。

image.png

image.png

データセットの作成ができたので、モデルにもどり、作成したモデルを選択したあと、Selectの画面で作成したデータセットを選択します。

image.png

image.png

次にBuild画面で、Target columnで予測したい項目を選択します。そうするとお勧めのModel Typeを自動で決めてくれます。もちろんこのModel Typeはカスタマイズ可能です。
私は今回長距離ドライバーのデータセットでお酒飲みかどうかを2値分類したかったので画像のように設定しました。
予測する項目とModel Typeが決まったらbuildします。

image.png

image.png

buildが終わると分析結果が表示されます。
image.png

最後にテストデータを使ってpredictします。

testデータを選択すると左下に黒いポップアップが出てくるので、そこをクリックするとanalyzeの精度が確認できます。
probabilityでその精度の確からしさを確認できます。

image.png

image.png

追記(202/07/06)

作成したドメインは削除しないと請求が飛んできます!
もしドメインが不要の場合は削除することを忘れないでください。

参考

最後に

ここまで読んでくださってありがとうございます!
新しい技術に触れるとき、挫折が多かったので簡単といわれるSageMaker Canvasにチャレンジしてみました。
SageMaker Canvasもはまる部分ははまったので、同じようにチャレンジしている人の参考になったら嬉しいです。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?