AWS Glue(Spark) で自己参照ルールが必須な理由を理解する

Posted at 2025-03-03

みなさま、こんにちは。

後輩に「GoF のデザインパターンは 48 の殺人技みたいなものだよ。」と説明したら、そもそもキン肉マンを知らずジェネレーションギャップを感じてしまった今日この頃です。

最近、データ周りの作業で AWS Glue を使う機会が多いのですが、その中で特に VPC 内のリソースへアクセスするときに登場する 自己参照ルール（self-referencing security group） の「役割」と「なぜ必要なのか」がふわふわしていたので、備忘としてまとめようと思います。

目的

以下の理解を目的とします。

自己参照ルールとは何か
Apache Sparkのアーキテクチャを考慮し、Glue（Sparkモード）でなぜ自己参照ルールが必須になるか

また最後に、Glue ジョブが作成する ENI や、IP枯渇リスクへの注意点についても記載します。

自己参照ルールとは

概要

あらためて、AWS のセキュリティグループ（SG)では、インバウンド/アウトバウンドルールのソースは以下を指定できます：¹

単一のIPアドレス、もしくは CIDR表記のIPアドレスの範囲
- 例: 203.0.113.1/32
プレフィックスリストのID
- 例: pl-1234abc1234abc123
セキュリティグループの ID
- 例: sg-1234567890abcdef0

このうち、「3. セキュリティグループの ID」において、ソースとして「自分自身のセキュリティグループのID」を指定することが、いわゆる「自己参照ルール（self-referencing security group）」です。

自身がソースとなることです。

使いどころ

クラスタや分散システムのように、ノード同士が双方向通信をするケースで必要となります。
「クライアント→サーバー」の一方向通信 あれば、自己参照ルールは必ずしも必要ありません。

少しずつ見ていきます。

自己参照ルールが必ずしも必要ではない場合

最初に自己参照ルールを知った時、単一責任の原則の悪魔に脳みそを支配された私は混乱しました。
例えばALB→EC2のを構築するときは、大まかに下記のようなSGを設定するはずです。

セキュリティグループ名	インバウンドルール	アウトバウンドルール
alb-sg	TCP 443 (HTTPS) from 0.0.0.0/0 (インターネットから)	All Traffic to 0.0.0.0/0 (すべての送信トラフィック許可)
ec2-sg	TCP 80 (HTTP) from alb-sg (ALBからのみ)	All Traffic to 0.0.0.0/0 (すべての送信トラフィック許可)

仮に自己参照ルールを用いて書き直すと下記のようになります。

セキュリティグループ名	インバウンドルール	アウトバウンドルール
self-referencing-sg	TCP 80 from self-referencing-sg (自分自身) TCP 443 from 0.0.0.0/0 (インターネットから)	All Traffic to 0.0.0.0/0 (すべての送信トラフィック許可)

先ほどと比べるとEC2への443ポートへアクセス可能となっています。
これはSGを共有した副作用であり、仮にEC2が443を解放していないとしても、Firewallレベルでの保護が不十分になります。

さらに、EC2へSSHするため22ポートを開放する場合、ALBにも22ポートが開放されることになります。ALBにSSH接続する必要はないため、これは不要なセキュリティリスクを生み出します。

では、どのようなときに自己参照ルールが必要になるのでしょうか。

自己参照ルールが必要になる場合

要は同じSGを付与されたインスタンス同士が、お互いに任意のポートで自由に通信できるようにしたいときに必要となります。

代表的なのが分散システムです。

少し抽象化して1つのマスターノードと、複数のチャイルドノードが存在していると仮定しましょう。

マスターノードは、チャイルドノードのコンピューティングリソースの空き具合を見て、タスクを割り当てるとします。（ここで言うタスクは単純なプロセスの実行）
またそれぞれのチャイルドノードは複数のタスクを処理可能であり、それぞれが異なるポートでマスターとやりとりします。
さらに、チャイルドノード同士も何らかの通信を行う可能性も考慮すると下記のような概念図になると思います。

このような構成の場合に自己参照ルールが活躍します。

例えばマスターノードと、各チャイルドノードに対応するEC2に自己参照ルールを許可すると下記の利点が得られます。

スケールアウトに対応しやすい
オートスケーリングでノードが増えたり減ったりするとき、個別の SG を紐付けするのは管理が面倒です。共通の SG に自己参照ルールを設けておけば、追加されたインスタンスが自動的に同じルールでクラスタ通信を行えます。
任意ポート通信が簡単に許可できる
分散システムでは、通信ポートがエフェメラルだったり、複数ポートにまたがったりします。自己参照ルール (All TCP) を設定しておけば、同一SG間での制限を一括でクリアできるため、いちいちポートを固定しなくても済みます。

Apache Sparkについて

概要

Apache Spark(Spark)とは分散システムで、統一された計算エンジンとビッグデータ処理のためのライブラリセットです。Hadoopと異なり、ストレージと計算が分離されており、様々なデータソースに直接アクセスできます。

詳しくは² をご参照ください。

主要なコンポーネントとしてDriver と Executorが存在しています。まずはそれらについて簡単に解説します。

Driver と Executor

Driver

クラスタ全体を管理し、タスクを Executor に割り振り、結果を集約する役割を果たします。

Driver はクラスター内の1つのノードで実行され、Sparkアプリケーションの中心として機能します。アプリケーションのライフサイクル全体を通じて、すべての関連情報を維持する不可欠なコンポーネントです。³

Executor

Driver によって空いているノードに割り当てられる実行コンポーネントです。主な役割は2つあります。³

Driverから割り当てられたコードの実行：実際の計算処理を担当します。
計算状態のDriverへの報告：処理の進捗や結果、エラーなどの情報をDriverノードに送り返します。

Executor は、Sparkの高速処理を実現するために、他のExecutor 同士と相互通信する機能も備わっています：

キャッシュの共有：Executor はデータを内部にキャッシュし、他の Executor がそのキャッシュを利用することで、データソースへの重複アクセスを減らし、パフォーマンスを向上させます。これはHadoopの課題だったI/Oボトルネックを解消します。⁴
シャッフル処理：データの再分配（シャッフル）が必要な場合、Executor 間でデータ転送が発生します。この通信も効率的に行われるよう最適化されています。⁵

アーキテクチャ

⁶ を参考にSparkの分散処理アーキテクチャを図示すると下記のようになります：

ほうほう。

つまり、Driver が Executor を管理し、Executor 同士は相互通信を行うことで処理の高速化を行い、処理が終われば Driver に通知する。クラスタモードの場合は、これらの相互作用はネットワークを必要とする、ですか。

おや？

これをVPC内で実行するなら自己参照ルール、必要じゃね？

そうです、ネテロ会長。
Glueでは、Sparkのコンポーネント（DriverとExecutor）が相互にやりとりするために自己参照ルールが必要になるんです！⁷

Glueのクラスタモードで発生する内部通信

Glue のジョブ（Sparkモード）を起動すると、Driver 用のコンテナとExecutor 用のコンテナが複数立ち上がり、それぞれ別々の ENI(Elastic Network Interface) に紐づきます。

下記のような構成イメージです。

 +--------------------+   +--------------------+
 |  Executor (ENI #1) |   |  Executor (ENI #2) |  <--- Both attach the same "glue-self-ref-sg"
 +--------+-----------+   +--------+-----------+
          |                        |
          | (任意ポート)           　| (任意ポート)
          |                        |
          +---------- Driver (ENI #D) ---------+  <--- Also has "glue-self-ref-sg"

Spark Driver と Executor はランダムなポートで通信するため、Glue 用 SG に自己参照（All TCP） が設定されていないと、お互いが通信できずジョブが失敗すると言うわけです。

続いてハンズオンを通して、本当に自己参照ルールが必要なのかと言う点と、作成されるENIについて調査していきます。

ハンズオン検証

自己参照ルールの有無がどのように Glue ジョブの実行に影響するか、また Glue ジョブ実行時に作成される ENI 数を確認する目的で下記の構成を用意しました。

Terraformはこちら▼

Glue 用のセキュリティグループでは、インバウンドに self = true を設定し、TCP 全ポートを同一 SG 間で許可しています。

resource "aws_security_group" "glue_self_ref_sg" {
  name        = "${var.app_name}-glue-sg"
  description = "Security Group for Glue with self-reference rule"
  vpc_id      = module.vpc.vpc_id

  egress {
    from_port   = 0
    to_port     = 0
    protocol    = "-1"
    cidr_blocks = ["0.0.0.0/0"]
  }

  ingress {
    description = "Self reference rule for Glue"
    from_port   = 0
    to_port     = 65535
    protocol    = "tcp"
    self        = true # <--ココ
  }
}

検証ポイント

自己参照ルールがない場合、Glue ジョブがどのように失敗するかを確認
Glue ジョブに指定したワーカー数と、作成される ENI の関係を確認

前準備

リソース作成 & テストデータ投入

リソースの作成

$ pwd
# glue_poc/terraform

$ terraform apply

テストデータ作成
作成した EC2 にセッションマネージャーで接続し、RDS に初期データを投入します。

$ aws ssm start-session --target i-xxx
$ /home/ssm-user/connect_to_rds.sh

# MySQL [db]>

CREATE TABLE IF NOT EXISTS `glue_demo` (
  `id` INT AUTO_INCREMENT PRIMARY KEY,
  `name` VARCHAR(50) NOT NULL
);

INSERT INTO `glue_demo` (`name`) VALUES ('Alice');
INSERT INTO `glue_demo` (`name`) VALUES ('Bob');

その後、Visual ETLを起動し、下記のようにぽちぽちワークフローを組んでみます。

実行は成功し、Athenaでクエリすることができました🎉

検証

1. 自己参照ルールがない場合の Glue ジョブ失敗

自己参照ルールを一旦削除してからジョブを実行し、Glue がどのようなエラーを返すか確認します。

AWS マネジメントコンソールから、Glue 用 SG の自己参照ルールを手動で削除

その状態で、Jobを実行すると...

AccountId:xxxx and JobName:glue-demo and JobRunId:jr_xxx failed to execute with exception At least one security group must open all ingress ports.To limit traffic, the source security group in your inbound rule can be restricted to the same security group (Service: AWSGlueJobExecutor; Status Code: 400; Error Code: InvalidInputException; Request ID: xxx; Proxy: null)

それっぽい理由で失敗していますね。
Glue (Spark) では、Driver ⇔ Executor 間で任意ポート通信が必要となるため、このように自己参照ルールがないとジョブが起動できないことが分かります。

2. Glue ジョブのワーカー数と ENI 作成数

Glue ジョブでは「ワーカー数」を指定できます。⁸
Spark 内部では Driver が1つ、残りを Executor として割り当てるイメージです。

例: ワーカー数 = 2
　　 Driver 1 + Executor 1 → ENI 2つ

例: ワーカー数 = 4
　　Driver 1 + Executor 3 → ENI 4つ

実行ログにも、複数の Executor の起動メッセージが出力されます。以下は抜粋例です。

INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 35065.
INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 41557.
INFO  org.apache.spark.util.Utils [Thread-7] 60 Successfully started service 'sparkDriver' on port 46391.

このようにワーカー数に比例して ENI の数が増加します。

今回の検証では、私がめんどくさがり...ゴホンゴホン。簡単のため、アプリケーション（EC2）とGlueジョブが1つのサブネットに同居していました。多数の Glue ジョブを起動すると、ENI が大量に生成され Private IP を消費します。

そのため、同居の際はサブネットの IP 割り当てを十分確保しておきましょう。⁹

まとめ

自己参照ルール (self-referencing security group) とは、同一SGに所属するリソース間で通信を許可する設定。
分散システム（例: Spark）では Driver ⇔ Executor、Executor ⇔ Executor 間通信が必要なため、Glue (Spark) を VPC内で動かす場合は自己参照ルールが必須。
Glue ジョブはワーカー数に応じて複数の ENI を一時的に作成し、エフェメラルポートで通信する。
IPアドレス枯渇リスクや、SGルールの設定ミスに注意しながら構成するのがポイント。

考察

少し端折ってしまったのですが、実際にはGlueジョブをワーカー数４で実行した際、下記のようなログが出ていました。

id	@message
1	INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 35065.
2	INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 41557.
3	INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 46119.
4	INFO 8418 org.apache.spark.util.Utils [Thread-7] 60 Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 43013.
5	INFO 6421 org.apache.spark.util.Utils [Thread-7] 60 Successfully started service 'sparkDriver' on port 46391.

当初予想していたのは、ワーカー数4に対応して4つの関連するログが作成されることでしたが、ログには5つのサービス起動が記録されていました。
id 1〜3とid 4は同じNettyBlockTransferServiceを起動していますが、ログの形式が異なります。id 5はsparkDriverの起動を示しています。

ENIは依然として4つのみ作成されていたため、おそらく Driverコンテナ上にExecutorと通信するためのインターフェイス的なサービスが立ち上がったのでは、と考えます。

感想

AWS Glue がコンポーネント間で通信できるようにするには、すべての TCP ポートに対して自己参照のインバウンドルールを持つセキュリティグループを指定します。⁷

この一文を理解するためにいろいろ勉強しました。
特に⁶の本は名著と言われているだけあり、ハンズオンも充実しており非常にわかりやすかったです。²の記事もすごくわかりやすかったですし、⁴の資料は何度読み直したかわかりません。コミュニティが広いOSSの利点をもろに享受させていただきました。

学んでみて下記の意味が理解できた気がします。

As of the time this writing, Spark is the most actively developed open source engine for this task; making it the de facto tool for any developer or data scientist interested in big data.³

似たような疑問を抱いている方々に、この記事が少しでも参考になれば幸いです。

謝辞

Apache Sparkを理解するにあたって、Databricks社が公開しているインターネット上のブログや記事、書籍等を広く参考にさせていただきました。
この場を借りてお礼申し上げます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up