4
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

#はじめに
image.png
Azure Synapse Analyticsに新しい仲間プールを加えるようになりました。
それが、Synapse Analytics Runtimeファミリーに、SQL PoolとSpark Poolのほかに、Azure Data ExplorerをSynapse Poolの一つとして、Synapse Data Explorer Poolを加えています。
記事を書いている現時点では、Public Previewです。本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。

#SDX Poolとは
Azure Synapse Data Explorer (SDX) は、アプリケーション、Web サイト、IoT デバイスなどから大量のデータ ストリーミングをリアルタイムで分析するための、高速で完全に管理されたデータ分析サービスです。製品の向上、カスタマー エクスペリエンスの向上、デバイスの監視、運用の向上を目的として、その場でKQLをしてデータを反復的に調査します。データのパターン、異常、傾向をすばやく特定できます。新しい質問を探索し、数分で回答を得ます。コスト構造が最適化されたおかげで、必要な数のクエリを実行できます。

#SDX Poolの導入背景
image.png
テレメトリ データは、IoT センサー、アプリ/Web/インフラ ログ、セキュリティ ログ、メトリック、クリック ストリーム、時系列など、あらゆる場所に位置し、家庭、スマート ビルディング、スマート ファクトリ、および消費者や企業が依存するデバイスで、接続されたデバイスの進歩を促進します。
毎日テラバイトとペタバイトのデータを生成しており、運用の改善と革新のためにほぼリアルタイムで分析する必要があります。

#SDX Poolの主な機能
image.png

  • フリー テキストや半構造化データを含むすべてのデータをインデックス化する強力な分散クエリ エンジンを使っています。データは自動的に圧縮、インデックス付け、自動最適化され、ローカル SSD にキャッシュされ、ストレージに保持されます。コンピューティングとストレージは分離され、ダウンタイムなしで自動スケール イン/アウトに完全な弾力性を提供します。
  • Synapse データを使用して、生のテレメトリと時系列データを探索するために高度に最適化された直観的な Kusto クエリ言語 (KQL) は、効率的な自由テキスト検索、正規表現、およびトレース\テキスト データの解析のためのクラス最高のテキスト インデックスを探索します。
  • 配列やネストされた構造を含む半構造化データを照会するための包括的な JSON 解析機能を持ちます。
  • モデルスコアリング用のインエンジン Python および R 実行サポートを備えた複数の時系列の作成、操作、および分析をサポートします。そして、ネイティブで高度な時系列もサポートします。
  • 地理情報のmap(地理空間クエリ)の操作もサポートします。

#SDX Poolの業界全体の一般的なユースケース
image.png
様々なIndustryで、時系列、トレース、メトリック、ログ、IoTなどのテレメトリデータの検索に向いています。

#SDX Poolのテクニカルユースケース
image.png
SDX Poolの特徴からみると、ほぼリアルタイムのBigData分析や、観察、監視、IoT分析などにも向いていて、分析SaaSソリューションとして組めます。

#SDX Poolのアーキテクチャ
image.png
SDX Poolは、コンピュートとストレージのリソースを分離することで、スケールアウトアーキテクチャを実装しています。これにより、各リソースを独立して拡張し、例えば、同じデータに対して複数の読み取り専用コンピュートを実行することができます。
SDX Poolは、分散クエリの自動インデックス作成、圧縮、キャッシュ、サービスを担うエンジンを実行するコンピュート群から構成されます。
また、バックグラウンドシステムジョブ、マネージドデータ、キューイングデータの取り込みを担当するデータ管理サービスを実行する2つ目の計算ノード群も持っています。
すべてのデータは、圧縮されたカラムナーフォーマットを使用して、管理されたブロブストレージアカウントに永続化されます。
SDX Poolは、コネクタ、SDK、REST API、その他の管理された機能を使用してデータを取り込むための豊富なエコシステムをサポートしています。
また、アドホッククエリ、レポート、ダッシュボード、アラート、REST API、SDKなど、さまざまな方法でデータを利用することが可能です。
さらに、SQL、CosmosDB、Azure Monitor、Data Lakeからのデータクエリもサポートしています。

#SDX PoolにデータのIngest方法
image.png
Ingest方法は4種類があります。

  • 開発言語、例えば、C#.NETやPython、Go、Node.js、Javaなどの言語で、SDKライブラリーを利用し、SDX PoolのEndpointにデータをIngestします。
  • 当然Azureサービスであるため、AzureのManagedサービスを利用することもできます。Iot Hub、Event Hub、Event Grid、Blob Storageなども対応します。
  • サードパーティ製の接続とプラグインも対応しています。例えば、Kafka、Spark、Logstash、Power Automateなどがあります。
  • ADFやSynapseのLinked Serviceを利用したPipelineの利用可能です。現状では、SDX Poolに接続するには、マニュアル接続する方法をお勧めします。「From Azure Subscription」にすると、ADXクラスタを選ぶことになり、SDX Poolが表示されません。
    image.png

また、Azure Data Explorerを使えば、ウィザードUIも揃えています。
image.png

#SDX Poolのクロスクエリ
image.png
一つAzure Synapse Analyticsに統合されることによって、様々なクエリパターンが生まれます。
特に、Synapse SQL Poolとクロスクエリができるように、分析する際に、データの移動を含む(ETL、ELT)は不要となり、そのままクエリ間のデータを結合できます。

下記はSQL Poolとクロスクエリのサンプルです。

KQL
let SQLPoolTable = evaluate sql_request(
'Server=tcp:{your syanpse dedicated sql pool},1433;'
'Authentication="Active Directory Integrated";'
'Initial Catalog={your synapse database name};',
'select [PostCode] as [PostCode],[AddressName] as [AddressName] from [dbo].[KQLAddressDetail]');
Employee
| join kind=inner Address on $left.['id'] == $right.['id']
| join kind=inner SQLPoolTable on $left.['postcode'] ==  $right.['PostCode']
| project  ['id'], ['name'], ['postcode'], ['AddressName'] 

#SDX Poolの操作クライアント
UI操作できるクライアントは3種類あります。

  • Synapse Studio
    image.png

  • Azure Data Explorer
    image.png

  • Kusto Explorer
    Download:

image.png
image.png
Add Connectionメニューで、SDX PoolのEndpointを指定し、認証を設定すれば接続できるようになります。
image.png
Ref URL:

#リアルタイムでIoTのテレメトリーデータをSDX PoolにIngestするサンプルStep
今回は物理デバイスを用意せず、Raspberry Pi オンライン シミュレーターを使って、温度データを取得し、IoT Hubに送信してから、Azure Stream Analytics Jobを使って、Event Hubに送信し、最後に、SDX Poolのデータ受け口をEvent Hubにして、SDX PoolのDatabaseの指定したTableにデータをIngestしていきます。
Raspberry Pi オンライン シミュレーターはこちらからアクセスできます。

[Step1] Azure IoT Hubのデプロイ(下記のURLを参照してください)

[Step2] Azure IoT Hubにデバイスを追加する

image.png
ここで、プライマリ接続文字列をメモしておきます。

[Step3] Raspberry Pi オンライン シミュレーターのNode.jsのConnectStringを編集する

image.png
ここで、先ほどのデバイスのプライマリ接続文字列を貼り付けます。

[Step4] Raspberry Pi オンライン シミュレーターのRunボタンを押す

image.png

そうすると、Iot Hubへ温度のテレメトリーデータを送信が開始します。
image.png

[Step5] Raspberry Pi オンライン シミュレーターから送ってきたテレメトリーデータを確認する

確認するには、Azure IoT Explorerを使います。
GitHubからダウンロードできます。
Download URL:

接続するには、IoT Hubの接続文字列の指定が必要があります。
まずは、IoT Hubの共有アクセスポリシーからポリシーを選びます。ここで、とりあえず一番強い権限を持っているiothubownerにします。
image.png
それから、プライマリ接続文字列をメモしておきます。
image.png
その後、Azure IoT ExplorerのAdd Connection stringに追加しておきます。
image.png
そうすると、Homeには、IoT Hubが出てきます。
image.png
IoT Hubをクリックすると、IoT Hubに存在しているデバイス(IoT Edgeがある場合、Edgeも含みます)が表示されます。
image.png
先ほど作ったIoTSimulatorデバイスに対して、TelemetryをStartすると、IoT Hubがデバイスからメッセージを受信していることが分かります。
image.png
image.png
ここまで、デバイスとIoT Hubの間の通信が確認でき、それから、IoT Hubに到着したメッセージをAzure Event Hubに送るようにします。

[Step6] Azure Event Hubのデプロイ(下記のURLを参照してください)

[Step7] Azure Event Hubの名前空間に、Event Hubインスタンスを作成する

image.png
ここで、iotというインスタンスを作成しておきます。
image.png

[Step7] IoT HubからEvent Hubにリアルタイムでデータを転送するために、Azure Stream Analytics Jobをデプロイする(下記のURLを参照してください)

[Step8] Azure Stream Analytics Jobの入力と出力を定義する

入力は、IoT Hubにします。
image.png
image.png
設定した後に、テストボタンを押して、正常性を確認してください。

出力は、Event Hubにします。
image.png
それも、設定した後に、テストボタンを押して、正常性を確認してください。

SQLクエリに似ていますが、AnalyticsクエリをFROMとINTOを指定します。
image.png
ここでは、IoTHubからEvent HubにdevicedIdがRaspberry Pi Web Clientという文字列のデバイスのテレメトリーデータを転送するように指示します。

最後に、Stream Analytics Jobを開始します。
image.png
開始してから、監視のメトリックスが表示され、データがリアルタイムで転送されています。
image.png

[Step9] SDX Poolのデプロイ(下記のURLを参照してください)

Azure Portalからもデプロイできますが、Synapse Studioの管理UIからデプロイできます。注意:デプロイは10分~15分ぐらいかかります。
image.png

[Step10] SDX PoolのDatabaseを作成する

image.png
ここで、RealTimeLogというDatabaseを作成しておきます。
image.png

[Step11] SDX PoolにEvent HubのテレメトリーデータをIngestする

Azure Data Explorerを開きます。
image.png
開いたら、左側のメニューのデータを選択します。
image.png
Data Ingest方法から、Event Hubを選択します。
image.png
Create New Tableを選択し、ここで、RaspberryPiというTableに名付けます。
image.png
それから、SourceにEvent Hubを指定し、コンシューマーグループを分ける場合もありますので、基本的には、Defaultでよいですが、Defaultが使われている場合、別のコンシューマーグループをEvent Hubに定義しておく必要があります。下記のキャプチャでは、別のコンシューマーグループを利用します。
image.png
それから、Schemaを選択します。JSONファイルなので、少し加工する必要があります。ここで、Nested Levelをあげると、JSON中の詳細データを取り出すことができるようになります。
image.png
最後に、Summaryして、接続完了とします。
image.png

[Step12] SDX Poolのデータを確認する

Synapse Studioに戻って、RaspberryPiというテーブルができるようになっています。
image.png
KQLで、中身のデータを確認します。
image.png
リアルタイムで、データが徐々に増えていきます。
image.png

IoTからのテレメトリーデータをSDX PoolにIngestのサンプル手順はここまでとします。

#SDX Poolの価格
image.png
専用容量となり、SDX Poolの裏側で使われているクラスターインスタンスのリソースの課金となります。Dedicated SQL Poolと同じ考え方です。
計算ノード+ストレージ+ネットワークの料金となります。

#SDX PoolはEnterprise Ready!
image.png
SDX Poolはユーザーが必要とするすべての主要な機能を備えているため、すぐにでも運用できるようになっています。

#最後に
Japan SQL Server User Group Communityでは、SDX Poolのセッションも行います。ぜひ、Join US!

4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?