AWS Glue DataBrew
『データのクリーニングと前処理に特化したツール』
データのクリーニング作業
- 欠損値の処理
- データ型の変更
- フィルタリング
レシピ機能
『頻繁に使用する前処理ステップをレシピとして保存し、他のプロジェクトやデータセットに再利用できる』
- データサイエンティストがデータの前処理を視覚的に行う際に非常に便利です。
- 複雑なコードを書くことなく、GUIを通じてデータのクレンジングや変換操作を簡単に設定できます。
- データ準備の時間を大幅に削減し、データサイエンティストの生産性が向上されます。
SageMaker Data Wrangler
『機械学習モデルに適した特徴量エンジニアリングを行うツール』
- データの変換
- 特徴量の生成
- 視覚化
に優れています。
特徴
- データの前処理や特徴エンジニアリングを自動化できます。
- モデルを作成する前に、データをクリーンアップしたり、変換したり、分析したりする必要がありますが、Data Wranglerはそのプロセスを効率化します。
- コードをほとんど書かずに、GUI上でデータの操作ができます。
- データ準備にかかる時間を大幅に短縮し、モデル開発に集中できるようにするツールです。
- 複数のデータソース(S3、Redshiftなど)から簡単にデータをインポートできます。
ユースケース
ある企業は、機械学習モデルの開発に向けてデータの前処理を行っています。データのクリーニングと特徴量エンジニアリングを効率よく行うために、AWS Glue DataBrewとSageMaker Data Wranglerの両方を使用します。
この場合、次の使い方となります。
『Glue DataBrew でデータをクリーニングして、SageMaker Data Wrangler で特徴量エンジニアリングをする』