Glue JobでRedshift Serverlessに接続する

Last updated at 2024-11-06Posted at 2024-10-31

はじめに

Glue Job(Sparkタイプ)を使って、Redshift Serverlessのデータを参照したりインサートしたりするために、
GlueデータカタログのConnectionを使って、Redshift Serverlessと接続する方法を整理しています。

以下のAWS記事を参考にしています。
ユーザーガイド: Redshift 接続
 Repost: 接続トラブルシューティング

この記事でわかること

接続に必要なAWSリソース一覧
AWSマネージメントコンソールの設定内容

本記事では接続までで、GlueJobを実行する部分は次回記事にて掲載します

構成図

Glue JobとRedshift Serverless間の接続についての構成を、図にしてみます。

リソース一覧

IAM関係リソース

Glue Job用のIAMロール、ポリシー
Redshift Serverless用のIAMロール、ポリシー

Glue Jobのロールには、S3アクセス関連のポリシーを付与（Redshift関連は不要）し、
Redshift用のロールには、S3の読み取りと書き込みを許可するポリシーが必要¹です。

ネットワーク関係リソース

Glue用VPCプライベートサブネット
Redshift Serverless用VPCプライベートサブネット × 3
Connection用のセキュリティグループ

Glue JobがVPC内で動くときのサブネットを指定します。
Redshift Serverlessのワークグループは、サブネットを3つ以上紐づけが必要です²。
今回のセキュリティグループは、GlueとRedshift双方に設定するものを作成します³。

Glue関連リソース

Glue Job
GlueデータカタログConnection

Glue Jobに、作成したGlue Job用のロールを紐づけます。
Glue Connectionには、サブネットやセキュリティグループ、Redshiftの認証情報なども設定していきます。

Redshift Serverless関連リソース

Redshift Serverlessワークグループ、名前空間

ワークグループに、サブネット、セキュリティグループを設定します。
名前空間には、ロールを紐づけます。

（その他Glue Job実行時に必要なリソース）

S3バケット
S3用VPCエンドポイント

SparkタイプGlue JobでConnectionを使ってRedshiftに接続する場合、
データの移動はS3を経由して行われる⁴⁵ため、Glue Jobを実行する際にはS3が必要となります。

またそのときVPC内のConnectionがVPC外のS3と接続するために、エンドポイントが必要です。
（ゲートウェイ型のエンドポイントを利用しています）

設定手順

AWSマネージドコンソールの設定画面をもとに整理しています。
※プライベートサブネット, S3バケット, S3用ゲートウェイエンドポイントは、作成済みとして進めます。

セキュリティグループの設定
IAMの設定
Redshift Serverlessの設定
Glueの設定
接続確認してみる
Glue Jobを実行してみる(次回記事)

セキュリティグループの設定

VPC画面サイドバーのセキュリティグループから、セキュリティグループを作成します。
インバウンドルールに自己参照ルールを設定します。
(自己参照ルールとは⁶)

[Type (タイプ)] All TCP、[Protocol (プロトコル)] は TCP、[Port Range (ポート範囲)] にはすべてのポートが含まれ、[Source (ソース)] は [Group ID (グループ ID)] と同じセキュリティグループ名であるというルール

アウトバウンドルールは、自己参照ルールと、S3エンドポイントへのアクセスを許可するルールを設定します³。

IAMの設定

IAM画面サイドバーのロールから、IAMロールを作成します。まずはRedshiftServerless用のロールを作成します。
まず、Redshift Serverlessがこのロールを使用できるように信頼ポリシーを定義しています。

続けて、ロールにアタッチするポリシーの設定をします。
S3の読込み、書込みアクションを許可します。

RedshiftServerlessのポリシー

{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
			"Action": [
				"s3:ListBucket",
				"s3:GetObject",
				"s3:PutObject",
				"s3:DeleteObject",
				"s3:AbortMultipartUpload",
				"s3:ListMultipartUploadParts",
				"s3:ListBucketMultipartUploads"
			],
			"Resource": [
				"arn:aws:s3:::<利用するS3バケット名>/*",
				"arn:aws:s3:::<利用するS3バケット名>"
			]
		}
	]
}

次に、GlueJob用のロールを作成します。
まず、Glue Jobがこのロールを使用できるように信頼ポリシーを定義しています。

続けて、ロールにアタッチするポリシーを設定します。
GlueJobの実行関連アクション許可、S3の読込み、書込みアクション許可、ネットワーク関連アクション許可を設定します。
（CloudWatch関連アクション許可は任意ですが、今後ログ確認するために設定しています）

GlueJobのポリシー

{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
			"Action": [
				"glue:GetConnection",
				"glue:StartJobRun",
				"glue:GetJobRun",
				"glue:GetJobRuns",
				"glue:BatchStopJobRun"
			],
			"Resource": [
				"arn:aws:glue:*:*:*"
			]
		},
		{
			"Effect": "Allow",
			"Action": [
				"s3:GetObject",
				"s3:PutObject",
				"s3:ListBucket"
			],
			"Resource": [
				"arn:aws:s3:::<利用するS3バケット名>/*",
				"arn:aws:s3:::<利用するS3バケット名>"
			]
		},
		{
			"Effect": "Allow",
			"Action": [
				"ec2:DescribeVpcAttribute",
				"ec2:DescribeVpcs",
				"ec2:DescribeSubnets",
				"ec2:DescribeSecurityGroups",
				"ec2:DescribeNetworkInterfaces",
				"ec2:DescribeVpcEndpoints",
				"ec2:DescribeRouteTables",
				"ec2:CreateTags",
				"ec2:CreateNetworkInterface",
				"ec2:DeleteNetworkInterface"
			],
			"Resource": [
				"*"
			]
		},
		{
			"Effect": "Allow",
			"Action": [
				"logs:CreateLogGroup",
				"logs:CreateLogStream",
				"logs:PutLogEvents"
			],
			"Resource": "arn:aws:logs:*:*:log-group:*"
		},
		{
			"Effect": "Allow",
			"Action": [
				"cloudwatch:PutMetricData",
				"cloudwatch:GetMetricData",
				"cloudwatch:GetMetricStatistics",
				"cloudwatch:ListMetrics"
			],
			"Resource": "*"
		}
	]
}