More than 3 years have passed since last update.

Azure Synapse Spark Poolからオンプレミスのリソースにアクセスする

Last updated at 2021-09-28Posted at 2021-09-27

はじめに

Azure Synapseの仮想ネットワーク系のオプションがいろいろあるが、これらを使用して、Spark Poolからオンプレミス内のリソース (今回の場合はSQL Server)にアクセスするのを試してみた。Synapseで利用できる主要なネットワークオプションは以下の通り。

マネージド仮想ネットワーク
- Synapseワークスペースを仮想ネットワークに関連付けることができる。この仮想ネットワークはAzure Synapseによって管理されるため、ユーザーは通常の仮想ネットワークのようにコントロールすることができない。
プライベートエンドポイント
- Synapseワークスペースに接続するためのエンドポイント。以下の3種類のターゲットサブリソースを選択可能。
  - Sql - Dedicated SQL PoolでSQLクエリを実行するためのもの
  - SqlOnDemand - Serverless SQL PoolでSQLクエリを実行するためのもの
  - Dev - ワークスペース内のすべてにアクセスするためのもの
マネージドプライベートエンドポイント
- マネージド仮想ネットワーク内にデプロイされる。SynapseがAzureのリソースにプライベート接続するためのエンドポイント
- Azureのサービス全体に対してではなく、特定のリソースにマップされる
- 規定でサポートされているAzure上のサービスであればそのリソースにマップしたマネージドプライベートエンドポイントを使用してアクセスすることができるが、そうでない場合は今回のようなソリューションを適用する必要がある
プライベートリンクハブ
- プライベートリンクを使用して、仮想ネットワークからAzure Synapse Studioに接続するためのもの

上記マネージドプライベートエンドポイントのところで述べたように、Spark Poolからプライベートネットワーク (VNet)内かつ規定で選択できるマネージドプライベートエンドポイント用のリソースではないデータソース、またはオンプレミスネットワークなどのAzure外のリソースにアクセスする場合は、現在のところここでのソリューションを利用する必要がある。

なお、規定でサポートされているマネージドプライベートエンドポイント用のリソースは、現在のところ以下の通り。この中に無いデータソースにアクセスしたい場合は、 Private Link Service とマップさせたマネージドプライベートエンドポイントを利用する。

試した構成

実際にオンプレミスとの接続構成を作成するような環境を持ち合わせていなかったため、できるだけ近い構成にするために以下の図のように、オンプレミスと仮定した仮想ネットワークを作成して、SQL Serverをインストールした仮想マシンをその中に配置した。
仮想ネットワークはSynapseのマネージド仮想ネットワーク(Synapse Managed VNet)、トラフィック転送用の仮想ネットワーク(FWVNET)、オンプレミス想定の仮想ネットワーク(ONPREVNET)の3つ。実際のプロダクション環境では、オンプレミスとAzureのプライベート接続には通常はExpressRouteやVPNなどを使用するが、ここでは簡単にするためにVNet Peeringを使用して、転送用の仮想ネットワークとオンプレ仮定の仮想ネットワークを接続した。この構成はData Factoryのドキュメンテーション内のチュートリアル: プライベートエンドポイントを使用して Data Factory マネージド VNet からオンプレミスの SQL Server にアクセスする方法をSynapse Spark Poolに応用したもの。

構成のポイント

この試した構成のポイントは以下の通り。

Synapseワークスペースをマネージド仮想ネットワークに関連付けてデプロイ。
マネージド仮想ネットワーク内のマネージドプライベートエンドポイントを使用してSpark Poolから外部のデータソースへのプライベート接続をする。
マネージドプライベートエンドポイントは、Private Link Serviceとマップさせる。
Private Link ServiceはAzure Load BalancerのStandardにのみ関連付けることができる。
Azure Load Balancerはオンプレミスのリソースに直接トラフィックを転送することができないため、バックエンドプールに仮想マシンを配置して、仮想マシンにトラフィックを転送する。
バックエンドプール内の仮想マシンにNATの設定をして、オンプレミス上の対象マシンにトラフィックが送信されるようにする。
オンプレミスとAzure間で名前解決ができるようにDNSの設定をする。今回のテスト環境はAzureの仮想ネットワークのみで完結しているため、ショートカットのためにAzureのPrivate DNS Zoneを作成して仮想ネットワークに関連付けたが、実際のところはオンプレミスリソースの名前解決ができるようにDNSの設定が必要。

設定方法

各種リソースのデプロイ

リソースグループの作成

export resourceGroupName="myResourceGroup"
export location="japaneast"

# Create Reource Groups
az group create --name $resourceGroupName --location $location

仮想ネットワークの作成

export FWVnetName="FWVNET"
export FWVnetPrefix="10.10.0.0/16"
export FWSubnet="FW-Subnet"
export FWSubnetPrefix="10.10.10.0/24"

export PLSubnet="PE-Subnet"
export PLSubnetPrefix="10.10.20.0/24"

export BESubnet="BE-Subnet"
export BESubnetPrefix="10.10.30.0/24"

export ONPREVnet="ONPREVNET"
export ONPREVnetPrefix="10.100.0.0/16"
export ONPRESubnet="DB-Subnet"
export ONPRESubnetPrefix="10.100.110.0/24"

# Create Forwarding VNET with a Subnet
az network vnet create -g $resourceGroupName -n $FWVnetName --address-prefix $FWVnetPrefix \
    --subnet-name $FWSubnet --subnet-prefix $FWSubnetPrefix

# Create Subnet for Private Link Servie
az network vnet subnet create -g $resourceGroupName --vnet-name $FWVnetName -n $PLSubnet \
    --address-prefixes $PLSubnetPrefix

# Create Subnet for Backend Service
az network vnet subnet create -g $resourceGroupName --vnet-name $FWVnetName -n $BESubnet \
    --address-prefixes $BESubnetPrefix

# Create On-Premise VNET with a Subnet
az network vnet create -g $resourceGroupName -n $ONPREVnet --address-prefix $ONPREVnetPrefix \
    --subnet-name $ONPRESubnet --subnet-prefix $ONPRESubnetPrefix

オンプレ仮想ネットワークと転送用仮想ネットワークのVNet Peering

az network vnet peering create -g resourceGroupName -n FWVnetToFOnpre --vnet-name $FWVnetName \
    --remote-vnet $ONPREVnet --allow-vnet-access

Azure Synapse workspaceのデプロイ

export synapseName="mysynapsetest20210927"
export storageAccountName="myadls20210927"
export fileSystenName="myfilesystem"
export sqlAdmin="sqladminuser1"
export sqlAdminPass="your-sql-admin-password"

# Create data lake storage gen2 account
az storage account create \
    --name $storageAccountName\
    --resource-group $resourceGroupName \
    --https-only true \
    --kind StorageV2 \
    --location $location \
    --sku Standard_LRS \
    --enable-hierarchical-namespace true

# Create filesystem in data lake storage gen2 account
az storage fs create -n $fileSystenName \
    --account-name $storageAccountName \
    --auth-mode login

# Create Synapse workspace enabling managed vnet
az synapse workspace create --name $synapseName--resource-group $resourceGroupName \
  --storage-account $storageAccountName --file-system $fileSystenName \
  --sql-admin-login-user $sqlAdmin --sql-admin-login-password $sqlAdminPass! --location $location \
  --enable-managed-virtual-network true

Azure Load Balancerのデプロイ

export loadBalancerName="myLoadBalancer"
export frontEndIpName="myFrontEnd"
export backEndPoolName="myBackEndPool"
export probeName="myHealthProbe"
export lbRuleName="myRule"

# Create Azure Load Balancer
az network lb create \
    --resource-group $resourceGroupName \
    --location $location \
    --name $loadBalancerName \
    --sku Standard \
    --vnet-name $FWVnetName \
    --subnet $FWSubnet \
    --frontend-ip-name $frontEndIpName \
    --public-ip-address-allocation dynamic \
    --backend-pool-name $backEndPoolName

# Create Health Probe
az network lb probe create \
    --resource-group $resourceGroupName \
    --lb-name $loadBalancerName \
    --name $probeName \
    --protocol tcp \
    --port 22 \
    --interval 15 \
    --threshold 2

# Create Load Balancer Rule
az network lb rule create \
    --resource-group $resourceGroupName \
    --lb-name $loadBalancerName \
    --name $lbRuleName \
    --protocol tcp \
    --frontend-port 1433 \
    --backend-port 1433 \
    --frontend-ip-name $frontEndIpName \
    --backend-pool-name $backEndPoolName \
    --probe-name $probeName \
    --idle-timeout 15 \
    --enable-tcp-reset false

プライベートリンクサービスの作成

export privateLinkServiceName="myPrivateLinkService"
az network private-link-service create \
    --resource-group $resourceGroupName \
    --name $privateLinkServiceName \
    --vnet-name $FWVnetName \
    --subnet $PLSubnet \
    --lb-name $loadBalancerName \
    --lb-frontend-ip-configs $frontEndIpName \
    --location $location

バックエンドサーバの作成

バックエンドサーバの仮想マシンはこちらの内部ロードバランサー向けのクイックスタートを参考に作成。長いのでここでの詳細は省略するが、作成の際に以下の設定を使用した。

OSはUbuntu Server 18.04LTS - Gen1
パブリック受信ポートは無し。外から直接アクセスできないので、Bastionなどを使用してアクセスする必要がある
仮想ネットワークは作成済みのトラフィック転送用のネットワーク(FWVNET)を選択し、サブネットはバックエンド用(BE-Subnet)を選択
パブリックIPはアサインしない
作成済みのロードバランサーのプールに追加する

データソース用のデータベースを作成

Azure仮想マシン上にSQL Serverをセットアップする。こちらのクイックスタートに従ってオンプレミス用仮想ネットワーク(ONPREVNET)の中にデプロイする。ここでリモートからのログインができるようにSQL Serverを設定しておくことが必要。

DNSの設定

今回のテストはAzureの仮想ネットワークのみで行ったので、Private DNS zoneを使用して簡単にレコードを作成して参照可能にしたが、実際のオンプレミスなどの環境との接続の場合には、お互いのリソースの名前解決ができるようにするためにDNSをセットアップする必要がある。
今回のテスト用のPrivate DNS zoneに関してはこちらの [クイックスタート:Azure portal を使用して Azure プライベート DNS ゾーンを作成する[(https://docs.microsoft.com/ja-jp/azure/dns/private-dns-getstarted-portal) を参考にセットアップし、ターゲットリソースの名前解決ができるようにレコードを追加する。ポイントは以下の通り。

ゾーンを作成し、仮想ネットワーク (ここではオンプレ用仮想ネットワーク(ONPREVNET)とトラフィック転送用仮想ネットワーク(FWVNET)にリンク
ターゲットリソース (ここではSQL Server on VM) のAレコードを登録
FWVNET上に構築した仮想マシンからdigコマンド等で名前解決ができればOK

ここでは例として、FQDNとして sqlvm01.synapsetest.takagi で名前が引けるように設定した

NATゲートウェイVM上で転送ルールを作成

このドキュメントの通りとなるが、転送設定は以下の通り。

OSにログインして、 ip_fwd.sh スクリプトをダウンロードする。
以下のようにスクリプトを実行する。これによりiptablesのNATルールが設定される

sudo ./ip_fwd.sh -i eth0 -f 1433 -a sqlvm01.synapsetest.takagi -b 1433

登録されたルールを確認するためには以下のiptablesコマンドを実行する。

sudo iptables -t nat -v -L PREROUTING -n --line-number
Chain PREROUTING (policy ACCEPT 75 packets, 3900 bytes)
num    pkts bytes target      prot opt in      out      source                destination
1         2   120 DNAT        tcp  --  eth0    *        0.0.0.0/0             0.0.0.0/0                tcp dpt:1433 to:10.100.110.5:1433

登録されたルールを削除したい場合は以下のiptablesコマンドを実行する。上記確認コマンド結果から、削除したいルールのnumの値をしていする。

sudo iptables -t nat -D POSTROUTING 1

Synapseワークスペースでプライベートリンクサービスに対するマネージドプライベートエンドポイントを作成

Synapse studioにログインして、管理 メニュー -> Managed private endpoints -> +New と進む。
リンクするサービスとして Private Link Service を選択して Continue

次の画面に遷移したら、自分のAzure Subscriptionを選択し、作成済みのプライベートリンクサービスを選択する。
最後にターゲットのSQL Server仮想マシンのFQDNを追加して Create

しばらくするとマネージドプライベートエンドポイントのステータスが承認待ちになるので、作成済みのプライベートリンクサービスの管理コンソールに移動し、承認待ちのリクエストを選択して承認する。その後しばらくすると接続が確立される。

これで接続設定は完了。

接続テスト

Synapseワークスペース内にSpark Poolを作成して、Spark Notebookを起動して以下のようにFQDNを使用してSQL Serverに接続する。事前にSQL Serverにデータベースおよびテーブルを作成して、1レコード追加しておいたが、このように結果がSpark DataFrameに返ってくれば接続成功となる。

今回はデータソースとしてSQL Serverを使用して試した。少し複雑な構成になるが、この方法であればSparkがサポートするデータソース(例えばOracle, MySQL, PostgreSQLのようなRDBMSやApache Kafkaなど・・・)にもアクセスが可能となる。

参考資料

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up