初めまして、鈴木と申します。私はクラウドインテグレーターとして働く一社員です。
背景として社内のデータを活用してビジネスの意思決定に活かす会社が増えている中で、社内の生データを加工してBIとして可視化できる状態にする事は必ず行う工程になります。
今回はデータの加工に用いられるAzure Synapse Analyticsのマッピングデータフローを用いて、練習がてら遊んでみました。
初学者の為、今回の記事の中でより良い方法がありましたらご教示頂けますと幸いです。
前準備
1.Azure Portalにログインして、ストレージアカウントを検索します。

2.ストレージを作成します。

3.コンテナーに、サンプルデータを格納します。(今回はsample-data / Directoryフォルダ)
今回のサンプルデータは、MicrosoftLearnよりダウンロードしたcsv形式の映画サンプルデータです。

4.AzureSynapseAnalyticsを検索する。

5.AzureSynapseAnalyticsリソースを作成する。

6.AzureSynapseAnalyticsリソースを開く。

7.お疲れさまでした。ここまで来たら前準備は完了です。

マッピングデータフローの活用
1.左のメニューバーからDevelopを選択

2.Dataflowを右クリックし、新しいデータフローを選択

3.ソースの追加部分でソースの追加を選択

4.データセットの箇所の+新規を選択

5.ここでストレージアカウントを使います。ADLS2を選択。

6.DelimitedTextを選択

7.リンクサービスはdefaultの物を選択し、ストレージアカウントのファイルパスを指定しスキーマのインポートを雪像またはストアからにしてOKを押す

8.デバッグモードにする。(データのプレビューなどで使用します。こちらは起動に時間がかかるのでスタジオを開いた時に行っておくとスムーズです。)
9.データソースをクリックするとデータのプレビューが選択できるので、最新の情報に更新を押すことでデータが読み込まれれば正常に抽出できています。

10.ソース右下の+を押すと、データの加工ができます。

11.今回は、評価の良い映画を見たいので、Ratingが6以上の物でフィルターを掛けます。

12.正常にフィルターが掛けられデータが加工されました。

13.フィルターデータフローの右下の+からシンクを追加し、データを出力するパスを指定します。

14.ここまできたら一度すべて発行しましょう。発行しないままスタジオを閉じてしまうとデータフローが保存されません。

15.左のメニューバーのIntegrateを選択します。

16.Piplinesを右クリックして新しいパイプラインを選択します

17.アクティビティの移動と変換から、データフローを真ん中の空欄にドラッグ&ドロップします。

18.データフローをクリックし、設定タブから先ほど作成したデータフローを選択します

19.デバッグを押すと、パイプラインが実行されます。

20.実行が終わり、指定したパスに加工されたデータが出力されれば成功です。お疲れさまでした。データの確認も忘れずに。

長かったかと思いますが、いかがでしたでしょうか。ローコードでデータの加工ができるのはとても魅力的ですよね。是非試してみてください。見て下さりありがとうございました。