More than 3 years have passed since last update.

[講座] Twitter Stream API を使って Azure でデータ分析 - Step6 (Synapse Serverless SQL)

Last updated at 2021-05-26Posted at 2021-05-21

今回は、Step6 です。Step5 で Twitter API から ADLS Gen2 への継続的なツイートデータの蓄積ができるようになっていますので、このステップ以降は Azure Synapse Analytics での分析を行っていきます。
※Twitter API 自体については、Step1、Step2 をご参照ください。
※Step6 から開始できるように、GitHub にサンプルのツイートデータ (Parquet ファイル) を共有しています。

Step6 の目標

Step5 までで、Twitter のツイートデータを Azure Data Lake Storage Gen2 (ADLS Gen2) に Parquet 形式のファイルとして自動的に蓄積できるようになっています。このステップでは、Azure Synapse Analytics をセットアップし、Serverless SQL pool を使って、SQL 文でデータ分析をできるようにすることが目標です。

Azure Synapse Analytics (ワークスペース) のデプロイ

Azure Synapse Analytics は、以下のように複数の PaaS を統合した SaaS 型のサービスになっています。ワークスペースをデプロイすると、Studio / Serverless SQL / Pipelines がすぐに利用可能になります。Studio の利用は無償、Serverless SQL はクエリ実行時の処理データ量課金 (672円/TB。但し、2021/07/31 までは 10 TB/月は無償)、Pipelines はパイプラインやデータフローの実行時間課金となります。価格の詳細は、Azure の価格ページをご参照ください。

手順 (1)

Azure ポータルの上部の検索ボックスから「synapse」と入力して、「Azure Synapse Analytics」を選択します。

手順 (2)

「＋作成」をクリックします。

手順 (3)

「Synapse ワークスペースの作成」画面の「基本」タブでは、以下を入力し、「次へ」をクリックします。

リソースグループ名
ワークスペース名（グローバルで重複しない名前）
地域（ツイートデータを蓄積している ADLS Gen2 ストレージと同じリージョン）
ストレージカウント名（ツイートデータを蓄積している ADLS Gen2 ストレージアカウント名 ※1）
ファイルシステム名（ツイートデータを蓄積している ADLS Gen2 ファイルシステム名 ※1）

※1: ツイートデータを蓄積している ADLS Gen2 ストレージとは別に新規に作成しても構いません。その場合、後ほど、Synapse Studio にてツイートデータを蓄積している ADLS Gen2 ストレージをリンク設定する必要があります。

手順 (4)

「Synapse ワークスペースの作成」画面の「セキュリティ」タブでは、以下を入力し、「次へ」をクリックします。

管理者ユーザー名（任意のユーザー名）
パスワード
パスワードの確認

手順 (5)

「Synapse ワークスペースの作成」画面の「ネットワーク」タブでは、「マネージド仮想ネットワークの有効化」をチェックし、「確認および作成」をクリックします。

手順 (6)

入力内容を確認した後、「作成」をクリックします。5-10 分ほどで、デプロイは完了します。

Synapse Studio の利用開始

Synapse Studio は、データ分析、アプリの開発、モニタリング、運用管理の為の包括的な Web ツールになっています。

1. Synapse Studio の起動

作成した Synapse ワークスペース のページから、以下赤囲みの「オープン」をクリックして、Synapse Studio を起動します。

Synapse Studio の「ホーム」画面が開きます。左のブレードに利用目的に応じたハブ（「データ」「開発」「統合」「モニター」「管理」）が配置されています。

2. ツイート蓄積ファイルの一覧表示

「データ」ハブで、「リンク済み」タブ → 対象の ADLS Gen2 ファイルシステムを開き、ツイートデータを蓄積しているフォルダーを見つけ、対象のフォルダーをダブルクリックして、作成されているファイルを一覧表示します。

※Step6 から開始したい方 (Step1 ～ Step5 を割愛される方) は、GitHub の Parquet ファイルをご利用ください。

Synapse Serverless SQL の利用開始

Serverless SQL は、データを配置する内部ストレージを持っておらず、ADLS Gen2 ストレージ上のファイル (現在、CSV / JSON / Parquet 形式のファイルに対応) に直接クエリを行います。データ量や処理負荷に応じて、自動的にノードを追加して処理することが出来る拡張性の高い仕組みになっています。

1. ADLS Gen2 ストレージへの認証

ユーザーによるインタラクティブな分析時のデフォルト認証方式は、Azure AD パススルー認証となり、ジョブとして自動化する際などは、Managed ID 認証 (Synapse Analytics ワークスペース名) を利用することになります。ADLS Gen2 ストレージの「アクセス制御 (IAM)」設定に、自分の Azure AD アカウント名および Synapse Analytics ワークスペース名 (この場合、dokums-synapse) が、「ストレージ BLOB データ共同作成者」ロールとして表示されるか確認してください。もし、表示されていなければ、追加してください。

2. CREATE DATABASE の実施

データは保持しませんが、メタデータ (CREATE EXTERNAL TABLE / CREATE VIEW などの定義) を格納する為のデータベースを作成します。

手順 (1)

「開発」ハブを選択し、「＋」→「SQL スクリプト」をクリックします。

手順 (2)

接続先：「組み込み」、データベースの使用：「master」の状態で、以下のクエリを実行します。データベース名 (ServerlessDB) は必要に応じて変更してください。サフィックスに「_UTF8」が付いた照合順序であれば、既定のエンコードとして問題ありませんが、「Latin1_General_100_BIN2_UTF8」は処理性能面で一番オーバーヘッドが少ない設定となります。

CREATE DATABASE ServerlessDB
    COLLATE Latin1_General_100_BIN2_UTF8;

3. 特定ファイルに対するクエリ

手順 (1)

「データ」ハブで、ツイートデータのファイルを一覧表示し、表示したいファイルを右クリックし、「新しい SQL スクリプト」→「上位 100 行を選択」をクリックし、クエリを自動生成します。

手順 (2)

「データベースの使用」として、先ほど作成した「ServerlessDB」を選択し、クエリを実行します。もし、データベースが候補に出て来なかったら、右の「最新の情報に更新」用のアイコンをクリックしてください。

4. ツイートデータ全体に対するクエリ

ファイルパスについては、以下のようにワイルドカード (*) を使えます。ツイートデータの蓄積の為に、ファイルパスに年月日時を入れてパーティション化していますので、その値を指定すれば、IO 範囲を絞ることができます。以下のクエリでは、ストレージアカウント名とファイルシステム名を置換して実行してください。

-- ツイートデータの表示 (100 行)
SELECT
    TOP 100 *
FROM
    OPENROWSET(
        BULK 'https://your-storage-account.dfs.core.windows.net/your-filesystem/tweetdata/*/*/*/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]

-- トータル件数の取得
SELECT COUNT(*) total_rows FROM
    OPENROWSET(
        BULK 'https://your-storage-account.dfs.core.windows.net/your-filesystem/tweetdata/*/*/*/*/*.parquet',
        FORMAT='PARQUET'
    ) AS [result]

-- ツイートのソース (デバイス) 毎の比率
SELECT [Source], count(CreatedBy) AS [count] FROM (
    SELECT distinct CreatedBy, [Source]
    FROM
        OPENROWSET(
            BULK 'https://your-storage-account.dfs.core.windows.net/your-filesystem/tweetdata/*/*/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
) AS T
GROUP BY [Source]
ORDER BY [count] DESC

5. 処理データ量の確認と制限

処理データ量は、課金に関わりますので、定期的に確認したり、制限を掛けておくことは重要です。

(1) クエリ毎の処理データ量

「モニター」ハブで、「SQL 要求」をクリックすると、実行したクエリの一覧を取得でき、「処理済みデータ」量を確認することができます。

(2) Serverless SQL 合計の処理データ量

「管理」ハブで、「SQL プール」を表示し、組み込みプール (Serverless SQL) の赤囲みの「コイン」アイコンをクリックすると、「コスト管理」ブレードが表示され、処理データ量を日次、週次、月次の単位で確認、および、制限設定することができます。

次のステップへ

Step7 では、Azure Synapse Analytics - Apache Spark を利用して、ツイートデータの感情分析とキーワード分析を行います。

参照

Azure Synapse Analytics での Synapse Studio SQL スクリプト
 Azure Synapse Analytics ドキュメント - 概要
 Azure Synapse Analytics 価格
 Azure Synapse Analytics サイト

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

[講座] Twitter Stream API を使って Azure でデータ分析 - Step6 (Synapse Serverless SQL)

Step6 の目標

Azure Synapse Analytics (ワークスペース) のデプロイ

手順 (1)

手順 (2)

手順 (3)

手順 (4)

手順 (5)

手順 (6)

Synapse Studio の利用開始

1. Synapse Studio の起動

2. ツイート蓄積ファイルの一覧表示

Synapse Serverless SQL の利用開始

1. ADLS Gen2 ストレージへの認証

2. CREATE DATABASE の実施

手順 (1)

手順 (2)

3. 特定ファイルに対するクエリ

手順 (1)

手順 (2)

4. ツイート データ全体に対するクエリ

5. 処理データ量の確認と制限

(1) クエリ毎の処理データ量

(2) Serverless SQL 合計の処理データ量

次のステップへ

参照

4. ツイートデータ全体に対するクエリ