プロローグ
ほげ君:ねえねえ、 Azure Synapse Anatlytics って知ってる?
ふが君:何それ?知らない。
ほげ君:僕も知らないんでよね!どんなものなのか教えてよ、 Microsoft 公式ドキュメント君!
公式ドキュメント君:分かりました。
Synapse Analytics 概要
公式ドキュメント君:Azure Synapse は、データ ウェアハウスやビッグ データ システム全体にわたって分析情報を取得する時間を早めるエンタープライズ分析サービスです。 Azure Synapse は、エンタープライズ データ ウェアハウスで使用される SQL テクノロジ、ビッグ データのための Spark テクノロジ、ログおよび時系列分析に使用される Data Explorer、データ統合と ETL および ELT のための Pipelines、Power BI、CosmosDB、AzureML などの他の Azure サービスとの緊密な統合の長所を組み合わせたものです。
ほげ君:ん--、要は大量のデータを処理することができるってことか。それってそんなにすごいのか?
ふが君:最近気づいたんだけどさ、多分データの量が多いってだけでも実は結構問題になるんじゃないかな?ただ降順に並べ替えるとかのエクセルでよくやる処理が、データが多いとそれだけで難しいのかなって。
ほげ君:そうなのか?
ふが君:あと僕たちが個人として扱ったいるデータと違って、企業とかが使うデータは誰が見たとか、どれぐらい使われたとか、そもそもどんなデータがあるのかとか、ただデータを見る使う以外にも、いろいろ気にしなくちゃいけないんじゃないかな?
ほげ君:なるほど!だからこんな何が嬉しいんだ?みたいな製品がいっぱい世の中にはあるのか!
ふが君:そうかもしれない。
ほげ君:にしても、Synaspe は何で難しいはずの大量データの処理ができるんだ?
ふが君:それは公式ドキュメント君に聞かないと。
公式ドキュメント君: Synapse にはビッグデータを処理する為のランタイムが三つあります:
1.Synapse SQL
2.Apache Spark for Azure Synapse
3.Synapse Data Explorer
ほげ君:多いなあ...
ふが君:一個ずつ教えてよ。
公式ドキュメント君:Synapse SQL では、サーバーレスと専用の両方のリソース モデルが提供されます。予測可能なパフォーマンスとコストに対しては、専用 SQL プールを作成して、SQL テーブルに格納されているデータの処理能力を確保します。 計画外または突発性のワークロードに対しては、常に使用可能なサーバーレスの SQL エンドポイントを使用します。
ほげ君:なるほど。一気に予約するのが専用で、使った後に会計するのがサーバレスか。
ふが君:二個目の Apache Spark は分散処理用のエンジンだね。三つ目は?
公式ドキュメント君:Azure Synapse Data Explorer は、ログとテレメトリ データから分析情報を引き出すための対話型クエリ エクスペリエンスを顧客に提供します。
ほげ君:これがさっき言ってた企業向けの機能か!ログは誰が何をしたかだよな。テレメトリデータってなんだ?
ふが君:教えてよ、グーグル先生。
グーグル先生:テレメトリーデータ(telemetry data)とは、ソフトウェアやアプリケーションがパフォーマンス改善や品質向上を目的として収集するユーザーの利用状況データのこと。プロセスは自動化されて、メーカーやベンダーのコントロールセンターなど特定の地点にデータは送信、収集される。
ふが君:利用状況のデータか。
ほげ君:へー。企業ってこんなこともやってるんだ。
ふが君:もうちょっと各部分の詳細を知りたいね。
ほげ君:今日はこのぐらいにしようぜ。腹減った。かつ丼食べに行こう。
ふが君:いいよ。また今度教えてね。公式ドキュメント君。