はじめに
この記事はSagemaker Canvasをこれから使いたい方や環境構築で躓いてしまっている方に向けた記事となっています。私がSageMaker Canvasの環境を構築した時にしたことを記録したものです。ドメイン作成など環境を構築して、簡単に検証するところまで実施しています。
超初心者向けです。
わかりやすいように画像を多めに張り付けたつもりなので参考になれば幸いです。
Amazon SageMaker Canvasとは
Amazon SageMaker CanvasはAWSが提供している、簡単に機械学習を用いて訓練データを学習し、予測などができるサービスです。
Machine Learning(ML)の経験やコーディングのスキルが不要で、誰でも簡単に使うことができます。
参考:Amazon SageMaker Canvas
筆者のAWSスキル
・ハンズオンの経験:EC2インスタンスの立ち上げやS3バケット、IAMロールの作成ができる程度
・SageMakerの経験:経験0
・筆者の気持ち:できるだけGUIで頑張りたい
SageMaker Canvasを使ったときの備忘録
SageMaker Canvas上でデータファイルを直接置くこともできますが、ユースケースとしてはS3にデータを置き、それをSageMaker Canvas上で読みこむことが多いと思いますので今回はその方法で実装しました。
Sagemakerドメインの作成
SageMaker CanvasおよびSageMaker Studioを使用するには最初にドメインの作成が必要です。
作成モード:高速セットアップ(1分)
ドメイン名:自由に付けてOK
ユーザプロファイル:デフォルトで値が入っているのでそちらで問題ありません。変更も可能です。
実行ロール:下記で説明
SageMakerのドメインを作成する際の実行ロールは、私は下のユーザプロファイルの「新しいロールの作成」から作成してつけました。
「新しいロールの作成」をクリックすると、下図の画面が出てきます。
セキュリティ上問題ないのであれば任意のS3バケットにする方が簡単にできると思います。
私はこのときSageMaker用のS3バケットを作成していなかったので任意のS3バケットにしました。
S3をこれから作成する人にとって、画像の下の方にある4つの任意の条件はとても重要です。私はここでハマりました。この任意のルールにのっとったS3バケットないしオブジェクトにしないとSageMaker Canvasでデータセットを作成するときに、対象ファイルを選択できませんので注意してください。
- 名前に「sagemaker」が含まれる任意の S3 バケット ← 筆者はこれにしました。
- 名前に「sagemaker」が含まれる任意の S3 オブジェクト
- タグ「sagemaker」と値「true」が含まれる任意の S3 オブジェクト
- SageMaker へのアクセスを許可するバケットポリシーを持つ S3 バケット
ロールを作成して、送信のボタンを押すと下の画面になります。これでドメインの作成は完了です。
作成できたドメインの名前の部分をクリックすると詳細情報確認とドメインの起動画面に移ります。
右側で起動>Canvasを選択してください。
起動すると下図のような画面になります。
S3バケットの作成
上述の通り、筆者は「sagemaker」が名前に含まれるS3バケットを作成しました。
S3にローカルから直接ファイルを置きたいとき、CORS(Cross-Origin Resource Sharing)の設定をする必要があります。(筆者はここでも詰まりました)
設定方法は簡単で、S3バケットのアクセス許可の画面の下の方にあるCORSの設定画面から下記の設定を記入するだけです。(コピペでokです!)
[
{
"AllowedHeaders": [
"*"
],
"AllowedMethods": [
"POST"
],
"AllowedOrigins": [
"*"
],
"ExposeHeaders": []
}
]
ここまでできたら、アップロード画面から訓練データとテストデータをアップロードします。
訓練データおよびテストデータの作り方、ポイント
データセットはいろいろなところに落ちているので、「データセット 無料」などで調べてみてください。私はKaggleのデータをよく使用しています。
データセットを作るといわれると少し難しそうですよね。でも意外と簡単です。
①データセットを1つとりあえずダウンロードする。
②データを8:2(train:test)に分ける。
③予測したい項目を決め、testの方のその項目を全部消す(ヘッダーは残す)
④csvファイルで保存する。(※文字コードがUTF-8でないと読み込んでくれません)
⑤ファイルが約1MBであることを確認します。(筆者が最初実施した3MBのファイルはデータが重すぎたため読み込んでくれませんでした。)
SageMaker Canvasでデータの訓練、検証
起動したSageMaker Canvasから、My modelsに行き、モデルを作成します。
筆者はデータの予測がしたかったのでPredict analysisを選択しました。
・Model name:自由につけてOK
・Problem type:Predict analysis
次にデータセットをSageMaker Canvasで作っていきます。
DatasetsタブのCreate>tabularから、任意のデータセットの名前を入力してCreateします。
その次の画面でS3からデータセットのtrainデータのファイルを選択します。
データセットの作成ができたので、モデルにもどり、作成したモデルを選択したあと、Selectの画面で作成したデータセットを選択します。
次にBuild画面で、Target columnで予測したい項目を選択します。そうするとお勧めのModel Typeを自動で決めてくれます。もちろんこのModel Typeはカスタマイズ可能です。
私は今回長距離ドライバーのデータセットでお酒飲みかどうかを2値分類したかったので画像のように設定しました。
予測する項目とModel Typeが決まったらbuildします。
最後にテストデータを使ってpredictします。
testデータを選択すると左下に黒いポップアップが出てくるので、そこをクリックするとanalyzeの精度が確認できます。
probabilityでその精度の確からしさを確認できます。
追記(202/07/06)
作成したドメインは削除しないと請求が飛んできます!
もしドメインが不要の場合は削除することを忘れないでください。
参考
最後に
ここまで読んでくださってありがとうございます!
新しい技術に触れるとき、挫折が多かったので簡単といわれるSageMaker Canvasにチャレンジしてみました。
SageMaker Canvasもはまる部分ははまったので、同じようにチャレンジしている人の参考になったら嬉しいです。