著者 Obed Vega
最終更新日 2022年8月2日
警告
本記事はTeradata CorporationのサイトGetting Startedに掲載された内容を抄訳したものです。掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。正確な内容については原本をご参照下さい。
また、修正が必要な箇所やご要望についてはコメントをよろしくお願いします。
概要
Native Object Storage (NOS) はCSV、JSON、Parquet形式のデータセットなどのファイルに保存されているデータを照会するためのVantage 機能です。これらはAWS S3、Google GCS、Azure BlobやオンプレミスのS3互換のオブジェクト・ストレージをサポートしています。この機能はVantageにデータを取り込むためのデータパイプラインを構築せずにデータを探索したい場合に便利ですが、このチュートリアルでは逆にVantageからオブジェクト・ストレージにParquetファイル形式でデータをエクスポートする方法について説明します。
前提条件
Teradata Vantageインスタンスにアクセスする必要があります。NOSはVantage ExpressやDeveloperといった無償の製品でも、またDIYでもVantage as a ServiceでもすべてのVantageエディションでバージョン17.10以降で有効になっています。
このチュートリアルは、s3 awsオブジェクト・ストレージをベースにしています。チュートリアルを完了するには、書き込み権限を持つあなた自身のs3バケットが必要です。
Vantageの新しいインスタンスが必要な場合はAWSのクラウドに無料のVantage Expressをデプロイメントすることができます。
WRITE_NOS関数でParquetファイルを作成する
WRITE_NOSを使用するとデータベーステーブルまたはクエリーの結果を選択したまたはすべてのカラムを使用してAmazon S3, Azure Blob storage, Azure Data Lake Storage Gen2, Google Cloud Storageなどの外部オブジェクト・ストレージに書き込むことができます。この機能ではデータをParquet形式で保存します。
WRITE_NOS機能については、NOSのドキュメントに詳細なドキュメントが掲載されていますので参考にしてください。
WRITE_NOS関数を実行できるデータベースへのアクセス権が必要です。そのようなデータベースがない場合は、以下のSQLでVantageユーザーを作成します。
CREATE USER db AS PERM=10e7, PASSWORD=db;
-- 必要な権限の付与を忘れずに行ってください
GRANT EXECUTE FUNCTION on TD_SYSFNLIB.READ_NOS to db;
GRANT EXECUTE FUNCTION on TD_SYSFNLIB.WRITE_NOS to db;
ユーザーとその権限の設定についてもっと詳しく知りたい場合は、NOSのドキュメントもチェックしてください。
① まずVantageインスタンスにテーブルを作成しましょう。
CREATE SET TABLE db.parquet_table ,FALLBACK ,
NO BEFORE JOURNAL,
NO AFTER JOURNAL,
CHECKSUM = DEFAULT,
DEFAULT MERGEBLOCKRATIO,
MAP = TD_MAP1
(
column1 SMALLINT NOT NULL,
column2 DATE FORMAT 'YY/MM/DD' NOT NULL,
column3 DECIMAL(10,2))
PRIMARY INDEX ( column1 );
② テーブルにサンプルのデータを入力します。
INSERT INTO db.parquet_table (1,'2022/01/01',1.1);
INSERT INTO db.parquet_table (2,'2022/01/02',2.2);
INSERT INTO db.parquet_table (3,'2022/01/03',3.3);
これでテーブルの内容は以下のようになりました。
column1 | column2 | column3 |
---|---|---|
1 | 22/01/01 | 1.10 |
2 | 22/01/02 | 2.20 |
3 | 22/01/03 | 3.30 |
③ WRITE_NOSでPaequetファイルを作成します。「BUCKET_NAME」は使用するs3バケットの名前に置き換えてください。また、「YOUR-ACCESS-KEY-ID」と「YOUR-SECRET-ACCESS-KEY」はあなたのアクセスキーとシークレットに置き換えてください。
SELECT * FROM WRITE_NOS (
ON ( SELECT * FROM db.parquet_table)
USING
LOCATION('/s3/<BUCKET_NAME>.s3.amazonaws.com/parquet_file_on_NOS.parquet')
AUTHORIZATION('{"ACCESS_ID":"<YOUR-ACCESS-KEY-ID>",
"ACCESS_KEY":"<YOUR-SECRET-ACCESS-KEY>"}')
STOREDAS('PARQUET')
MAXOBJECTSIZE('16MB')
COMPRESSION('SNAPPY')
INCLUDE_ORDERING('TRUE')
INCLUDE_HASHBY('TRUE')
) as d;
オブジェクト・ストレージにアクセスするための認証情報を作成する方法については、クラウドプロバイダーのドキュメントを確認してください。例えばAWSの場合、How do I create an AWS access key?になります。
これでオブジェクト・ストレージのバケットにParquetファイルが作成されました。ここでファイルの内容を簡単に参照するために以下の手順を実行してみましょう。
④ 作成したParquetファイルからデータを参照する外部テーブルを作成します。先ほどと同様に「BUCKET_NAME」をs3バケットの名前に置き換えるのを忘れないでください。また「YOUR-ACCESS-KEY-ID」と「YOUR-SECRET-ACCESS-KEY」も同様です。
CREATE MULTISET FOREIGN TABLE db.parquet_table_to_read_file_on_NOS
, EXTERNAL SECURITY DEFINER TRUSTED CEPH_AUTH,
MAP = TD_MAP1
(
Location VARCHAR(2048) CHARACTER SET UNICODE CASESPECIFIC
, col1 SMALLINT
, col2 DATE
, col3 DECIMAL(10,2)
)
USING (
LOCATION ('/s3/<BUCKET_NAME>.s3.amazonaws.com/parquet_file_on_NOS.parquet')
AUTHORIZATION('{"ACCESS_ID":"<YOUR-ACCESS-KEY-ID>",
"ACCESS_KEY":"<YOUR-SECRET-ACCESS-KEY>"}')
STOREDAS ('PARQUET')
)NO PRIMARY INDEX;
⑤ これで作成したparquetファイルのデータを参照する準備が整いました。
SELECT col1, col2, col3 FROM db.parquet_table_to_read_file_on_NOS;
クエリから返される返される結果は次のようなもののはずです。
col1 | col2 | col3 |
---|---|---|
1 | 22/01/01 | 1.10 |
2 | 22/01/02 | 2.20 |
3 | 22/01/03 | 3.30 |
(日本語訳注)
Parquetファイルを書き出しすために使用したテーブルと同じ内容であることがわかります。
まとめ
このチュートリアルではNative Object Storage (NOS)を使用してVantageからオブジェクト・ストレージ上のParquetファイルにデータをエクスポートする方法について説明しました。NOSはCSV、JSON、Parquet形式で保存されたデータの読み取りとインポートをサポートしていますが、またVantage からオブジェクト・ストレージにデータをエクスポートすることもできます。
さらに詳しく
・Teradata Vantage™ - Writing Data to External Object Store