Xplentyでは、CSVファイルの他にJSONやXMLデータフォーマットを簡単に処理することができます。この記事ではXplentyでXMLを処理しやすくする機能を例に紹介します。
#概要とリソース
デモのために、処理するサンプルXMLファイルへのリンクはこちらです。
このデータを処理するための鍵となるのが、Xplentyの関数「XPath」と「XPathToBag」です。これらをデータパイプラインで検証してみましょう。
Setting up the Xplenty Data Pipeline
#Xplentyデータパイプラインの設定
Xplentyパイプラインの構成要素をそれぞれ順番に説明していきます。
-
XML_Source: 上記で共有されたリンクからのXMLファイルをクラウドストレージにコピーし、File Storage Source Componentを使用して読み込みます。
-
XPathToBag: このステップでは、XPath
/catalog/book
に一致するようにXPathToBag関数を呼び出します。これは、Bagデータ型の<catalog> </catalog>
の下にあるすべての書籍を取得します。 例)XPathToBag(data,'/catalog/book')
-
Flatten_Books: Flatten()関数を使用して、構造体の各レコードを個別のbookレコードとして取得します。
-
XPath: このステップでは、XPath関数を使用して、book構造体の個々の要素を取得することができます。ここでは、上記の
<book> </book>
構造体にXPathを設定したコンポーネントを見てみましょう。
XPathとその例についての追加のリファレンスは、freeformatter.comのようなXPath評価ツールを参照してください。 -
Destination: XML から処理された個々のフィールドは、Destination(この例では BigQuery テーブル)に保存されます。
ファイルやAPIレスポンスからXMLをパースしてテーブル形式の構造に変換することは、データを検索する上で重要です。また、他のデータセットとのブレンドにより、データ分析をより容易にすることができます。
#まとめ
信頼できるドキュメントベースの情報転送として、XMLベースのファイルやAPIがユースケースとしてよく見られます。XplentyではこうしたXMLデータを簡単に処理するための機能が用意されています。ぜひ、Xplentyのフリートライアルでお試しください。