はじめに
2020 年末に Azure Purview が発表され、一部地域でプレビュー提供開始されました。Azure Purview はデータガバナンスサービスであり、クラウド上で増え続けるデータを効率的に管理したいというユーザーの課題解決に役立つサービスといえます。
個人的に非常に注目しているサービスなのですが、サービスの特性からいって実際にデータを取り扱ってみないとその魅力が伝わりづらいのではないかという気がしています。そこで、本記事ではオープンデータである ODPT のバス情報を題材として Azure Purview を使い、どのような管理ができるのかを見ていきたいと思います。
ODPT:公共交通オープンデータセンター
ODPT(公共交通オープンデータセンター)とは、公共交通オープンデータ協議会に参画する交通事業者のデータを、一般の開発者や ICT ベンダー等にワンストップで提供する機関です。
参考: 公共交通オープンデータセンター
組織名にある通り、扱うデータは電車やバスといった公共交通機関に関するものです。先日話題になった Google マップへの電車の位置情報表示でも、ODPT のデータが使われています。
利用の手続きは簡単で、開発者サイトへユーザー登録した後にユーザーごとに払い出されるアクセストークンを使用することでデータを取得することができます。
利用データの選定と ADLS Gen2 への配置
ODPT にあるデータの中から、今回はバスに関する情報を使用します。国内の主要なバス会社からデータが提供されていますが、今回はサンプルとして東急バス/京王バス/小田急バスのデータをピックアップしてみます。
各社はバスの経路情報や時刻表を JSON 形式で管理しているため、ODPT のカタログサイトでそれらを取得した後に、 Azure Purview のデータソースとする ADLS Gen2 にアップロードしておきます。
参考: ODPT カタログサイト
Azure Purview のデータソースとしては Azure Synapse Analytics や Power BI、オンプレの SQL Server など様々なものが選べますが、今回はデータレイクとして ADLS Gen2 に格納し、今後その他のサービスと連携させていくシナリオとします。
データソースの作成
ここからいよいよ、Azure Purview を使っていきます。まずは、データソースを作成します。以降の作業は、基本的に Purview Studio から行います。
「Sources」ハブで「Register」-「Azure Data lake Storage Gen2」を選択。
バスデータを格納した ADLS Gen2 の情報を選択し、登録。
スキャン
先ほどの画面で「Start scan」をクリックし、スキャンを実行します。
本稿では説明は割愛しますが、Gen2 に対するマネージドサービス ID は事前に作成済とします。
アップロードした 3 社のデータ計 11 ファイルを対象とします。
スキャン結果の確認
「Sources」ハブから「Map view」で表示を切り替え、「view details」をクリックすると、スキャンの状況が確認できます。
しばらく待つと status が「Completed」になり、assets が登録されたことがわかります。
検索
スキャンした資産を検索してみます。画面上部の検索ボックスで試しに「keio」と入力すると、京王バスの 4 つのファイルが suggestion されます。
そのまま検索すると、4 つの JSON ファイルが結果として表示されます。Asset type として ADLS Gen2 もあることがわかります。
検索結果からファイルをクリックすると、詳細が表示されます。shceme タブでは JSON ファイルからスキーマ定義が読み取られていることがわかります。
次に東急バスの検索結果です。京王バスと同様の結果が出力されますが、こちらでは Classification も出てきます。この辺りの違いは、次回以降の記事で詳しく見ていきたいと思います。
shceme タブの情報は京王バスのものと全く同じです。画面ショットは割愛しますが小田急バスも同様でしたので、各社が業界標準のフォーマットに則りデータを作成していることがわかります。
まとめ
今回は ODPT のオープンデータを通して Azure Purview への登録とスキャン、検索を実施してみました。Purview にはこの他にも Classification や Lineage など豊富な管理機能が用意されていますので、今回使用したバス会社のデータを元にユースケースを広げ、記事として投稿し続けていきたいと思います。