More than 3 years have passed since last update.

XplentyによるXMLデータ処理

Last updated at 2020-11-30Posted at 2020-11-30

Xplentyでは、CSVファイルの他にJSONやXMLデータフォーマットを簡単に処理することができます。この記事ではXplentyでXMLを処理しやすくする機能を例に紹介します。

概要とリソース

デモのために、処理するサンプルXMLファイルへのリンクはこちらです。

ファイルは以下の画像のようなXML構造になっています。

このデータを処理するための鍵となるのが、Xplentyの関数「XPath」と「XPathToBag」です。これらをデータパイプラインで検証してみましょう。

Setting up the Xplenty Data Pipeline

Xplentyパイプラインの構成要素をそれぞれ順番に説明していきます。

XML_Source: 上記で共有されたリンクからのXMLファイルをクラウドストレージにコピーし、File Storage Source Componentを使用して読み込みます。
XPathToBag: このステップでは、XPath /catalog/bookに一致するようにXPathToBag関数を呼び出します。これは、Bagデータ型の<catalog> </catalog>の下にあるすべての書籍を取得します。　例） XPathToBag(data,'/catalog/book')
Flatten_Books: Flatten()関数を使用して、構造体の各レコードを個別のbookレコードとして取得します。
XPath: このステップでは、XPath関数を使用して、book構造体の個々の要素を取得することができます。ここでは、上記の<book> </book>構造体にXPathを設定したコンポーネントを見てみましょう。
XPathとその例についての追加のリファレンスは、freeformatter.comのようなXPath評価ツールを参照してください。
Destination: XML から処理された個々のフィールドは、Destination（この例では BigQuery テーブル）に保存されます。

以下の画像は、出力されたレコードの例を示しています。

ファイルやAPIレスポンスからXMLをパースしてテーブル形式の構造に変換することは、データを検索する上で重要です。また、他のデータセットとのブレンドにより、データ分析をより容易にすることができます。

信頼できるドキュメントベースの情報転送として、XMLベースのファイルやAPIがユースケースとしてよく見られます。XplentyではこうしたXMLデータを簡単に処理するための機能が用意されています。ぜひ、Xplentyのフリートライアルでお試しください。