federated queryを使ったSpannerからBigQueryへのデータ転送

Posted at 2021-12-22

はじめに

こんにちは、この記事はUnipos Advent Calender 2021の16記事目です

UniposではデータをDataStoreとSpannerにもち、それらのデータを集計するためにBigQueryにデータを転送しています
この記事ではSpannerからBigQueryへのデータ転送について紹介します

公式ドキュメントに詳しいことは書いてありますが、このブログでは具体的な操作、具体的な値について書いていきます

先程の外部データソースの入力でIDをspanner-dbにしたとすると、
以下のようにしてSpannerからクエリすることができます

SELECT * FROM EXTERNAL_QUERY(
	'asia-northeast1.spanner-db',
	'''SELECT * FROM User'''
)

EXTERNAL_QUERYの第一引数で$location.$id、第二引数でSpannerで実行したいクエリを入力することで対象のSpannerDBでクエリを実行することができます
そして、クエリしてきたデータをBQにinsertすることもできます

SpannerのTIMESTAMPではナノ秒までの情報を持っていますが、BQではミリ秒までしか持っていません、なのでこのfederated queryを使ってSpannerからBQにデータ転送する場合、ナノ秒は切り捨てられてしまいます

Spannerの情報入力で、「データを同時に読み込む」というチェックボックスがありましたが、書いてあるとおり、チェックを入れるとデータを並列に読み込んでくれます
ですが、チェックを入れることによって、実行できるクエリはクエリ実行プランの最初の演算子が分散ユニオンの場合のみになります

公式ドキュメントによると分散ユニオンとは「1つ以上のテーブルを複数のスプリットに分割し、各スプリットのサブクエリをリモートで個別に評価してから、すべての結果を結合」するものです

つまりは最初の処理を分散できるものはデータを同時に読み込めるが、できないクエリに関してはエラーになります

select * from User where Age > 20

のような単純なクエリであれば問題はないですが、

select ID from User where Age > 20 union all select ID from SpecialUser where Age > 20

のようなクエリだと実行することができません