背景・目的
Amazon Managed Workflows for Apache Airflow(以降、MWAAという。)を試したときのメモ書きになります。
Airflowを本格的に利用したことがなかったので、このタイミングで基本的な知識を含めて簡単な動作確認を行います。
まとめ
下記に特徴をまとめます。
特徴 | 説明 |
---|---|
概要 | ・MWAAはマネージドオーケストレーションサービス ・データパイプラインを大規模に設定・運用する用途 ・AirflowとPythonを使用してワークフローを作成 ・MWAAはキャパシティを自動的にキャパシティを拡張 ・セキュリティサービスと統合 ・スケーラビリティ、可用性、セキュリティのための基盤の管理は不要 |
Airflowを自動的にセットアップ | 素早くセットアップ可能 |
オートスケール | ・最小数と最大数を設定し、Airflowワーカーを自動的にスケーリング ・MWAAは環境内のワーカーを監視し、定義したワーカーの最大数に達するまで追加する |
ビルトイン認証 | ・IAMと統合 ・ロールベースの認証と認可 |
ビルトインセキュリティ | ・VPCで実行 ・KMSを使用して暗号化 |
パブリックアクセスモードまたはプライベートアクセスモード | ・AWS SSOとIAMで制御 ・2つのアクセスモードがある |
ワークフローモニタリング | CloudWatchで下記の確認ができる ・Airflowメトリクス ・Airflowログ |
AWS 統合 | 下記と統合が可能。 ・Amazon Athena ・AWS Batch ・Amazon CloudWatch ・Amazon DynamoDB ・AWS DataSync ・Amazon EMR ・AWS Fargate ・Amazon EKS ・Amazon Kinesis Data Firehose ・AWS Glue ・AWS Lambda ・Amazon Redshift ・Amazon SQS ・Amazon SNS ・Amazon SageMaker ・Amazon S3 |
概要
Amazon Managed Workflows for Apache Airflow とは何ですか?を元に整理します。
Amazon Managed Workflows for Apache Airflow は、「Apache Airflow」用のマネージドオーケストレーションサービスで、クラウド上でデータパイプラインを大規模に設定・運用するために使用できます。Apache Airflow は、「ワークフロー」と呼ばれる一連のプロセスとタスクをプログラムで作成、スケジュール、監視するために使用されるオープンソースのツールです。Amazon MWAA を使用すると、スケーラビリティ、可用性、セキュリティのための基盤を管理する必要なく、Apache Airflow と Python を使用してワークフローを作成できます。Amazon MWAA は自動的にワークフローの実行キャパシティを拡張してニーズに対応し、Amazon MWAA は AWS セキュリティサービスと統合して、データへの迅速で安全なアクセスを提供します。
- MWAAはマネージドオーケストレーションサービス
- データパイプラインを大規模に設定・運用する用途
- AirflowとPythonを使用してワークフローを作成
- MWAAはキャパシティを自動的にキャパシティを拡張
- セキュリティサービスと統合
- スケーラビリティ、可用性、セキュリティのための基盤の管理は不要
機能
- 自動エアフローセットアップ — Amazon MWAA 環境を作成するときに「Apache Airflow バージョン」を選択することで、Apache Airflow をすばやくセットアップできます。Amazon MWAA は、インターネット上でダウンロードできる同じ Apache Airflow ユーザーインターフェイスとオープンソースコードを使用して、Apache Airflow を自動的にセットアップします。
- Airflowを自動的にセットアップ
- 素早くセットアップ可能
- 自動スケーリング — 環境内で稼働するワーカーの最小数と最大数を設定して、Apache Airflow ワーカーを自動的にスケーリングします。Amazon MWAA は環境内のワーカーを監視し、「自動スケーリングコンポーネント」を使用して需要を満たすワーカーを、定義したワーカーの最大数に達するまで追加します。
- オートスケーリング
- 最小数と最大数を設定し、Airflowワーカーを自動的にスケーリング
- MWAAは環境内のワーカーを監視し、定義したワーカーの最大数に達するまで追加する
- ビルトイン認証 — AWS Identity and Access Management (IAM) で「アクセスコントロールポリシー」を定義することで、Apache Airflow ウェブサーバーのロールベースの認証と承認を有効にします。Apache Airflow ワーカーは、AWS サービスへの安全なアクセスのためにこれらのポリシーを引き継ぎます。
- IAMと統合
- ロールベースの認証と認可
- ビルトインセキュリティ — Apache Airflow ワーカーとスケジューラーは「Amazon MWAA の Amazon VPC」で実行されます。データも AWS Key Management Service を使用して自動的に暗号化されるため、環境はデフォルトで安全です。
- VPCで実行
- KMSを使用して暗号化
- パブリックアクセスモードまたはプライベートアクセスモード — プライベートまたはパブリック「アクセスモード」を使用して Apache Airflow ウェブサーバーにアクセスします。[パブリックネットワーク] アクセスモードは、インターネット経由でアクセス可能な Apache Airflow ウェブサーバーの VPC エンドポイントを使用します。プライベートネットワークアクセスモードは、VPC からアクセス可能な Apache Airflow ウェブサーバーの VPC エンドポイントを使用します。いずれの場合も、Apache Airflow ユーザーのアクセスは、AWS Identity and Access Management (IAM) で定義したアクセスコントロールポリシーと AWS SSO によって制御されます。
- AWS SSOとIAMで制御
- パブリックNWアクセスモート
- プライベートNWアクセスモード
- アップグレードとパッチの効率化 — Amazon MWAA は Apache Airflow の新しいバージョンを定期的に提供しています。Amazon MWAA チームはこれらのバージョンに合わせてイメージを更新し、パッチを適用します。
- パッチ適用
- ワークフローモニタリング — Amazon CloudWatch で Apache Airflow ログと「Apache Airflow メトリクス」を表示して、Apache Airflow タスクの遅延やワークフローエラーを特定できます。追加のサードパーティツールは必要ありません。Amazon MWAA は、環境メトリクスを自動的にCloudWatch に送信します。有効になっている場合は、Apache Airflow ログも送信します。
- CloudWatchで下記の確認ができる
- Airflowメトリクス
- Airflowログ
- AWS 統合 — Amazon MWAA は、Amazon Athena、AWS Batch、Amazon CloudWatch、Amazon DynamoDB、AWS DataSync、Amazon EMR、AWS Fargate、Amazon EKS、Amazon Kinesis Data Firehose、AWS Glue、AWS Lambda、Amazon Redshift、Amazon SQS、Amazon SNS、Amazon SageMaker、およびAmazon S3 といったオープンソースの統合をサポートしており、さらに数百の組み込みおよびコミュニティ作成のオペレータとセンサーが利用可能です。
- AWSと統合
- Amazon Athena
- AWS Batch
- Amazon CloudWatch
- Amazon DynamoDB
- AWS DataSync
- Amazon EMR
- AWS Fargate
- Amazon EKS
- Amazon Kinesis Data Firehose
- AWS Glue
- AWS Lambda
- Amazon Redshift
- Amazon SQS
- Amazon SNS
- Amazon SageMaker
- Amazon S3
- 数百の組み込み、コミュニティ作成のオペレータが利用可能
- ワーカーフリート — Amazon MWAA は、コンテナを使用してワーカーフリートをオンデマンドでスケーリングし、「AWS Fargate のAmazon ECS」を使用してでスケジューラーの停止を減らすことをサポートしています。Amazon ECS コンテナでタスクを呼び出すオペレーターと、Kubernetes クラスターでポッドを作成して実行する Kubernetes オペレーターがサポートされています。
- コンテナを使用してワーカーフリートをオンデマンドでスケーリング
- Fargateを使用
アーキテクチャ
外側のボックス (下の画像) に含まれるすべてのコンポーネントは、アカウント内では単一の Amazon MWAA 環境として表示されます。Apache Airflow スケジューラーとワーカーは、AWS Fargate (Fargate) コンテナであり、環境の Amazon VPC のプライベートサブネットに接続されています。各環境には、AWS によって管理される独自の Apache Airflow メタデータベースがあり、このメタデータベースはスケジューラとワーカーの Fargate コンテナがプライベートでセキュアな VPC エンドポイントを介してアクセスできます。
- Airflowのスケジューラーとワーカーは、Fargateコンテナ
- VPCプライベートサブネットに接続されている
Amazon CloudWatch、Amazon S3、Amazon SQS、Amazon ECR、および AWS KMS は Amazon MWAA とは別であり、Fargate コンテナ内のApache Airflow Scheduler およびワーカーからアクセスできる必要があります。
- 下記からアクセス可能な状態にする
- Amazon CloudWatch
- Amazon S3
- Amazon SQS
- Amazon ECR
- AWS KMS
Apache Airflow ウェブサーバーには、[パブリックネットワーク] の Apache Airflow アクセスモードを選択してインターネット経由でアクセスすることも、[プライベートネットワーク] の Apache Airflow アクセスモードを選択して VPC 内からアクセスすることもできます。いずれの場合も、Apache Airflow ユーザーのアクセスは、AWS Identity and Access Management (IAM) で定義したアクセス制御ポリシーによって制御されます。
- インターネット経由でアクセスとVPC内からアクセスモードを選択
Integration
活発で成長を続けている Apache Airflow オープンソースコミュニティでは、Apache Airflow を AWS サービスと統合するためのオペレーター (サービスへの接続を簡素化するプラグイン) が提供されています。これには、Amazon S3、Amazon Redshift、Amazon EMR、AWS Batch、および Amazon SageMaker などのサービスのほか、他のクラウドプラットフォーム上のサービスも含まれます。
- OSSコミュニティでは、AirflowをAWSサービスと統合するためのオペレーターが提供されてる
- オペレータとは、サービスへの接続を簡素化するためのプラグイン
サポートされるバージョン
Amazon MWAA は複数のバージョンの Apache Airflow をサポートしています。サポートされている Apache Airflow のバージョンと、各バージョンに含まれている Apache Airflow コンポーネントの詳細については、Apache Airflow 用 Amazon マネージドワークフロー上の Apache Airflow のバージョン を参照してください。
- MWAAは、複数バージョンのAirflowをサポートしている
実践
Amazon Managed Workflows for Apache Airflowを使い始めるを元に試します。
前提
Amazon MWAA 用の Amazon S3 バケットの作成
- AWSにサインインし、S3バケットを作成します
- バケットの「プロパティ」でバケットのバージョニングで「編集」をクリックします
- バケットのバージョニングを「有効にする」を選択し、「変更を保存」をクリックします
VPCネットワークを作成する
インターネット経由のパブリックルーティングを元に試します。
下記のVPCのセットアップが必要です。
- 1つのVPCセキュリティグループ
- 2つのパブリックサブネット
- 2つのプライベートサブネット
- NACL
- 2つのNATGW
- 1つのIGW
-
VPCに移動します
-
「VPCを作成」をクリックします
-
下記を選択し、「VPCを作成」をクリックします
- AZ:2つ
- パブリックサブネット:2つ
- プライベートサブネット:2つ
- NATGW:AZごとに1
- VPCe:S3のGW型
KMSを作成
- KMSに移動します
- 「キーの作成」をクリックします
- 下記を選択し、「次へ」をクリックします
- ラベルを追加では、エイリアスを入力し「次へ」をクリックします
- キーの管理アクセス許可を定義で「次へ」をクリックします
- キーの使用法アクセス許可を定義で「次へ」をクリックします
- 確認画面で「完了」をクリックします
Amazon MWAA 環境を作成する
Amazon MWAA 環境を作成するを元に試します。
-
MWAAコンソールを開きます
-
「環境を作成」をクリックします
-
環境の詳細で下記を指定します
-
AmazonのS3のDAGコードで、用意したS3バケットを指定し、「次へ」をクリックします
-
下記を選択します
-
環境クラスで下記を選択します
-
暗号化は、指定せずに、MWAAが所有するキーを使用します
-
アクセス許可で実行ロールを「新しいロールを作成」を選択し、「次へ」をクリックします
-
確認して作成の画面で、「環境を作成」をクリックします
Airflow UIの確認
考察
今回は、MWAAを整理し、構築まで試しました。次回以降は実際にDAGを作成し動かしてみます。
参考