LoginSignup
0
0

Amazon SageMaker Data Wrangler に画像の前処理が追加

Last updated at Posted at 2023-05-25

はじめに

AWS UpdateでAmazon SageMaker Data Wranglerに画像の前処理機能が追加されました。

Data WranglerはAmazon SageMaker Studioの機能の一つで、データの前処理が行えるサービスです。
従来はファイルタイプとしてcsv, parquet, json, jsonl, orcに対応していたようですが、「image」が追加されました。

利用イメージは以下のようになります。

DataWrangler.png

やってみる

「S3からインポート → 重複削除 → ノイズ付与 → S3にエクスポート」という流れを試してみます。
インポートするS3バケット内に同じ画像データを2枚用意しました。
この画像に処理を行い、エクスポートするまでを試してみます。

データインポート

データソースをS3としてインポートします。File typeは「image」を選択しました。
image_1.png

インポートが完了するとプレビューが表示されます。
右側のALL STEPS内の「Add step」から処理を追加することで、前処理のステップを定義することができます。
image_2.png

カスタムで作成したスクリプトをステップに追加することもできるのですが、以下の組み込みの変換も用意されています。

  • Blur image(画像のぼかし)
  • Brightness(明るさ)
  • Color channels(カラーチャンネル)
  • Corrupt image(ノイズ付与)
  • Drop corrupted images(ノイズ画像の除去)
  • Drop duplicates(重複画像の削除)
  • Enhance image contrast(コントラスト)
  • Grayscale(グレースケース化)
  • Resize image(リサイズ)
  • Rotate(回転)
  • Split data(データ分割)

今回は重複削除とノイズ付与を実施するので「Drop image duplicates,Corrupt image」を追加しました。
適用されると猫が一匹になり、ノイズが付与されます。
image_4.png

データエクスポート

データをS3バケットの対象フォルダにエクスポートします。
左上の「Data flow」からデータフローの一覧に戻り、「Corrupt image」右の+を押下します。
「Add Destination」→ 「Amazon S3」を選択し、エクスポートするフォルダを選択します。
image_5.png

ジョブの作成・実行,結果の確認

最後にワークフローを実行します。ワークフロー画面右上の「Create job」から環境の設定を行い、ジョブの実行を行います。
image_6.png

ジョブの実行状況はAmazon SageMakerコンソールの「Processing/処理ジョブ」から確認できました。
image_7.png

S3バケットに加工済みの画像ファイルがアップロードされていることを確認できました。
image_8.png

まとめ

Amazon SageMaker Data Wranglerの新機能、画像の前処理を試してみました。このアップデートにより、よりData Wranglerのユースケースの幅が広がったと思います。

参考

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0