#はじめに
Azure Synapse Analyticsに新しい仲間プールを加えるようになりました。
それが、Synapse Analytics Runtimeファミリーに、SQL PoolとSpark Poolのほかに、Azure Data ExplorerをSynapse Poolの一つとして、Synapse Data Explorer Poolを加えています。
記事を書いている現時点では、Public Previewです。本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。
#SDX Poolとは
Azure Synapse Data Explorer (SDX) は、アプリケーション、Web サイト、IoT デバイスなどから大量のデータ ストリーミングをリアルタイムで分析するための、高速で完全に管理されたデータ分析サービスです。製品の向上、カスタマー エクスペリエンスの向上、デバイスの監視、運用の向上を目的として、その場でKQLをしてデータを反復的に調査します。データのパターン、異常、傾向をすばやく特定できます。新しい質問を探索し、数分で回答を得ます。コスト構造が最適化されたおかげで、必要な数のクエリを実行できます。
#SDX Poolの導入背景
テレメトリ データは、IoT センサー、アプリ/Web/インフラ ログ、セキュリティ ログ、メトリック、クリック ストリーム、時系列など、あらゆる場所に位置し、家庭、スマート ビルディング、スマート ファクトリ、および消費者や企業が依存するデバイスで、接続されたデバイスの進歩を促進します。
毎日テラバイトとペタバイトのデータを生成しており、運用の改善と革新のためにほぼリアルタイムで分析する必要があります。
- フリー テキストや半構造化データを含むすべてのデータをインデックス化する強力な分散クエリ エンジンを使っています。データは自動的に圧縮、インデックス付け、自動最適化され、ローカル SSD にキャッシュされ、ストレージに保持されます。コンピューティングとストレージは分離され、ダウンタイムなしで自動スケール イン/アウトに完全な弾力性を提供します。
- Synapse データを使用して、生のテレメトリと時系列データを探索するために高度に最適化された直観的な Kusto クエリ言語 (KQL) は、効率的な自由テキスト検索、正規表現、およびトレース\テキスト データの解析のためのクラス最高のテキスト インデックスを探索します。
- 配列やネストされた構造を含む半構造化データを照会するための包括的な JSON 解析機能を持ちます。
- モデルスコアリング用のインエンジン Python および R 実行サポートを備えた複数の時系列の作成、操作、および分析をサポートします。そして、ネイティブで高度な時系列もサポートします。
- 地理情報のmap(地理空間クエリ)の操作もサポートします。
#SDX Poolの業界全体の一般的なユースケース
様々なIndustryで、時系列、トレース、メトリック、ログ、IoTなどのテレメトリデータの検索に向いています。
#SDX Poolのテクニカルユースケース
SDX Poolの特徴からみると、ほぼリアルタイムのBigData分析や、観察、監視、IoT分析などにも向いていて、分析SaaSソリューションとして組めます。
#SDX Poolのアーキテクチャ
SDX Poolは、コンピュートとストレージのリソースを分離することで、スケールアウトアーキテクチャを実装しています。これにより、各リソースを独立して拡張し、例えば、同じデータに対して複数の読み取り専用コンピュートを実行することができます。
SDX Poolは、分散クエリの自動インデックス作成、圧縮、キャッシュ、サービスを担うエンジンを実行するコンピュート群から構成されます。
また、バックグラウンドシステムジョブ、マネージドデータ、キューイングデータの取り込みを担当するデータ管理サービスを実行する2つ目の計算ノード群も持っています。
すべてのデータは、圧縮されたカラムナーフォーマットを使用して、管理されたブロブストレージアカウントに永続化されます。
SDX Poolは、コネクタ、SDK、REST API、その他の管理された機能を使用してデータを取り込むための豊富なエコシステムをサポートしています。
また、アドホッククエリ、レポート、ダッシュボード、アラート、REST API、SDKなど、さまざまな方法でデータを利用することが可能です。
さらに、SQL、CosmosDB、Azure Monitor、Data Lakeからのデータクエリもサポートしています。
#SDX PoolにデータのIngest方法
Ingest方法は4種類があります。
- 開発言語、例えば、C#.NETやPython、Go、Node.js、Javaなどの言語で、SDKライブラリーを利用し、SDX PoolのEndpointにデータをIngestします。
- 当然Azureサービスであるため、AzureのManagedサービスを利用することもできます。Iot Hub、Event Hub、Event Grid、Blob Storageなども対応します。
- サードパーティ製の接続とプラグインも対応しています。例えば、Kafka、Spark、Logstash、Power Automateなどがあります。
- ADFやSynapseのLinked Serviceを利用したPipelineの利用可能です。現状では、SDX Poolに接続するには、マニュアル接続する方法をお勧めします。「From Azure Subscription」にすると、ADXクラスタを選ぶことになり、SDX Poolが表示されません。
また、Azure Data Explorerを使えば、ウィザードUIも揃えています。
#SDX Poolのクロスクエリ
一つAzure Synapse Analyticsに統合されることによって、様々なクエリパターンが生まれます。
特に、Synapse SQL Poolとクロスクエリができるように、分析する際に、データの移動を含む(ETL、ELT)は不要となり、そのままクエリ間のデータを結合できます。
下記はSQL Poolとクロスクエリのサンプルです。
let SQLPoolTable = evaluate sql_request(
'Server=tcp:{your syanpse dedicated sql pool},1433;'
'Authentication="Active Directory Integrated";'
'Initial Catalog={your synapse database name};',
'select [PostCode] as [PostCode],[AddressName] as [AddressName] from [dbo].[KQLAddressDetail]');
Employee
| join kind=inner Address on $left.['id'] == $right.['id']
| join kind=inner SQLPoolTable on $left.['postcode'] == $right.['PostCode']
| project ['id'], ['name'], ['postcode'], ['AddressName']
#SDX Poolの操作クライアント
UI操作できるクライアントは3種類あります。
Add Connectionメニューで、SDX PoolのEndpointを指定し、認証を設定すれば接続できるようになります。
Ref URL:
#リアルタイムでIoTのテレメトリーデータをSDX PoolにIngestするサンプルStep
今回は物理デバイスを用意せず、Raspberry Pi オンライン シミュレーターを使って、温度データを取得し、IoT Hubに送信してから、Azure Stream Analytics Jobを使って、Event Hubに送信し、最後に、SDX Poolのデータ受け口をEvent Hubにして、SDX PoolのDatabaseの指定したTableにデータをIngestしていきます。
Raspberry Pi オンライン シミュレーターはこちらからアクセスできます。
[Step1] Azure IoT Hubのデプロイ(下記のURLを参照してください)
[Step2] Azure IoT Hubにデバイスを追加する
[Step3] Raspberry Pi オンライン シミュレーターのNode.jsのConnectStringを編集する
ここで、先ほどのデバイスのプライマリ接続文字列を貼り付けます。
[Step4] Raspberry Pi オンライン シミュレーターのRunボタンを押す
そうすると、Iot Hubへ温度のテレメトリーデータを送信が開始します。
[Step5] Raspberry Pi オンライン シミュレーターから送ってきたテレメトリーデータを確認する
確認するには、Azure IoT Explorerを使います。
GitHubからダウンロードできます。
Download URL:
接続するには、IoT Hubの接続文字列の指定が必要があります。
まずは、IoT Hubの共有アクセスポリシーからポリシーを選びます。ここで、とりあえず一番強い権限を持っているiothubownerにします。
それから、プライマリ接続文字列をメモしておきます。
その後、Azure IoT ExplorerのAdd Connection stringに追加しておきます。
そうすると、Homeには、IoT Hubが出てきます。
IoT Hubをクリックすると、IoT Hubに存在しているデバイス(IoT Edgeがある場合、Edgeも含みます)が表示されます。
先ほど作ったIoTSimulatorデバイスに対して、TelemetryをStartすると、IoT Hubがデバイスからメッセージを受信していることが分かります。
ここまで、デバイスとIoT Hubの間の通信が確認でき、それから、IoT Hubに到着したメッセージをAzure Event Hubに送るようにします。
[Step6] Azure Event Hubのデプロイ(下記のURLを参照してください)
[Step7] Azure Event Hubの名前空間に、Event Hubインスタンスを作成する
[Step7] IoT HubからEvent Hubにリアルタイムでデータを転送するために、Azure Stream Analytics Jobをデプロイする(下記のURLを参照してください)
[Step8] Azure Stream Analytics Jobの入力と出力を定義する
入力は、IoT Hubにします。
設定した後に、テストボタンを押して、正常性を確認してください。
出力は、Event Hubにします。
それも、設定した後に、テストボタンを押して、正常性を確認してください。
SQLクエリに似ていますが、AnalyticsクエリをFROMとINTOを指定します。
ここでは、IoTHubからEvent HubにdevicedIdがRaspberry Pi Web Clientという文字列のデバイスのテレメトリーデータを転送するように指示します。
最後に、Stream Analytics Jobを開始します。
開始してから、監視のメトリックスが表示され、データがリアルタイムで転送されています。
[Step9] SDX Poolのデプロイ(下記のURLを参照してください)
Azure Portalからもデプロイできますが、Synapse Studioの管理UIからデプロイできます。注意:デプロイは10分~15分ぐらいかかります。
[Step10] SDX PoolのDatabaseを作成する
ここで、RealTimeLogというDatabaseを作成しておきます。
[Step11] SDX PoolにEvent HubのテレメトリーデータをIngestする
Azure Data Explorerを開きます。
開いたら、左側のメニューのデータを選択します。
Data Ingest方法から、Event Hubを選択します。
Create New Tableを選択し、ここで、RaspberryPiというTableに名付けます。
それから、SourceにEvent Hubを指定し、コンシューマーグループを分ける場合もありますので、基本的には、Defaultでよいですが、Defaultが使われている場合、別のコンシューマーグループをEvent Hubに定義しておく必要があります。下記のキャプチャでは、別のコンシューマーグループを利用します。
それから、Schemaを選択します。JSONファイルなので、少し加工する必要があります。ここで、Nested Levelをあげると、JSON中の詳細データを取り出すことができるようになります。
最後に、Summaryして、接続完了とします。
[Step12] SDX Poolのデータを確認する
Synapse Studioに戻って、RaspberryPiというテーブルができるようになっています。
KQLで、中身のデータを確認します。
リアルタイムで、データが徐々に増えていきます。
IoTからのテレメトリーデータをSDX PoolにIngestのサンプル手順はここまでとします。
#SDX Poolの価格
専用容量となり、SDX Poolの裏側で使われているクラスターインスタンスのリソースの課金となります。Dedicated SQL Poolと同じ考え方です。
計算ノード+ストレージ+ネットワークの料金となります。
#SDX PoolはEnterprise Ready!
SDX Poolはユーザーが必要とするすべての主要な機能を備えているため、すぐにでも運用できるようになっています。
#最後に
Japan SQL Server User Group Communityでは、SDX Poolのセッションも行います。ぜひ、Join US!