Azure Data Factory (Synapse Pipelines)のMapping DataflowがSynapseにシンクする際に利用するメソッド
注意点
2021/10時点の情報です。
また、本記事でサポート回答を記載していますが、個別に投稿許可をいただいてます。
場合によりサポートで得た情報は公開を許可されないことがあるのでご注意ください
はじめに
Azure Data Factory、あるいはAzure Synapse AnlayticsのGUIで作成可能なデータ変換機能である、Mapping Dataflowを使用する際に、MSサポートと連携して得た情報を共有します。
今回は、Synapse Analytics 専用SQL Poolに対してデータをロードする際に、Mapping Dataflowではどのような方式をとっているのか、また、その制御方法をまとめます。
※Copyアクティビティの話はここでは扱いません。
Mapping Dataflowのステージング設定
Mapping DataflowはSynapse Analyticsを取得元(ソース)、登録先(シンク)対象にした際には、二つのタイミングでストレージを介してデータ取得/登録を行うことができます。
Synapse Analyticsは効率的にストレージのデータを取り込む/に直接データ書き出す機能をもっているため、それを呼び出すことで性能を確保しています。
※逆にステージングをおこなわないと以下のように性能が落ちる警告がでます。
Synapse Analyticsで直接データを取り込み/書き出す機能について
COPYとPolybaseがあります。
元々はPolybaseだけでした。
Polybase
PolyBase によるデータ仮想化の概要
PolyBase Transact-SQL リファレンス
SQLServerにも存在する、ストレージ上のデータを仮想的にテーブルとみなしてT-SQLを実行できる機能です。
よく、Polybaseロードと言いますが、実際にはストレージ上のデータをSELECT -> CETAS後にターゲットテーブルにロードしています。
読み取りだけでなく、書き込み接続も可能です。
Polybaseにはデータを高速で取り込むためのチューニングがなされています。
Azure SQL Data Warehouse loading patterns and strategies
必要な権限
PolybaseをDataFactoryで実行する際、以下のT-SQLが自動実行されます。
- CREATE MASTER KEY
- CREATE DATABASE SCORPED CREDENTIALS
- CREATE EXTERNAL DATA SOURCE
- CREATE EXTERNAL FILE FORMAT
- CREATE EXTERNAL TABLE
- 作成したテーブルへのSELECT とターゲットへのインサート
従って、以下の権限が必要です。
- DBスコープのCONTROL
- 対象のテーブルへのINSERT
- ADMINISTER DATABASE BULK OPERATIONS
COPY
取り込み専門の機能です。他者のDWH製品でもストレージ上のデータを取り込む機能として同じコマンドが採用されていることが多いです。
Polybaseには以下のようなファイルの要件があります。※Data Factoryではステージングストレージを有効化することで一度フォーマット変換して書き出してファイルフォーマットの要件がクリアされるようになっています。
Data Factoryで直接Polybaseを使う要件:
ソース データ形式 は、次のように構成された Parquet、 ORC、または 区切りテキスト です。
フォルダーのパスにワイルドカード フィルターが含まれない。
ファイル名が空か、1 つのファイルを指している。 コピー アクティビティでワイルドカードのファイル名を指定する場合は、* または . の>みを指定できます。
rowDelimiter が default、 \n、 \r\n、または \r である。
nullValue が既定値のままか、空の文字列 ("") に設定されており、treatEmptyAsNull が既定値のままか、true に設定されている。
encodingName が既定値のままか、utf-8 に設定されている。
quoteChar、escapeChar、および skipLineCount が指定されていない。 PolyBase では、ヘッダー行のスキップがサポートされます。これ>は、firstRowAsHeader として構成できます。
compression は、圧縮無し、 GZip 、または Deflate に設定できます。
これらの条件を緩和し、かつ、Polybaseを実行するのに必要な高権限を不要としているのがCOPYコマンドです。
必要な権限
必要な権限は以下のように非常に少ないです。
ADMINISTER DATABASE BULK OPERATIONS
対象のテーブルへのINSERT
シンク時のメソッドが決定する条件とは
Data Factoryにデータベース全体のCONTROL権限を与えたくない要件がある場合、Polybaseロードの利用は不可となります。
Copy Activityでは明示的に指定することができますが、Mapping Dataflowにはその設定が見当たりません。
サポートへの確認結果
サポートに確認したところ、以下の回答を得ました。
GUI上のプロパティ設定ではなく、スクリプト内で記載されているということですね。
データフローのスクリプトの中に 「allowCopyCommand:true」 が含まれている場合、COPYコマンドが使用されます。そうでない場合はPolybaseが使用されます。
確認方法
なお、これはシンク側でステージング設定を有効にした場合、既定でオンになるものですが、古いデータフローの場合だと、含まれていないことがあるそうです。
挙動の確認
Mapping Dataflow が実行したSQLで確認します。
上に行くほど最新のコマンドとなっています。
ソースステージングの挙動
PolybaseのためにCREATEおよびDROPを実行しています。
### allowCopyCommand:trueが入っているときのステージングシンク
tempテーブル(idっぽいのがついたテーブル)を作成して、COPY後にターゲットテーブルにINSERT しています。
allowCopyCommand:trueがないときのステージングシンク
これはPolybaseのみが動作します。
こちらもtempテーブルを作成して、polybase外部テーブルからtempにINSERT後にターゲットテーブルにINSERT しています。