0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Microsoft Fabric における Pipeline / Dataflow Gen2 / Notebook の使い分け

Posted at

Microsoft Fabric を活用してデータ基盤や分析環境を構築する際、

「どの方法でデータを取り込めば良いのか?」
「Pipeline、Dataflow Gen2、Notebook のどれを使えばいいのか?」

といった悩みを抱える方も多いのではないでしょうか。

本記事では、Microsoft Fabric における代表的な3つのデータ取り込み手段:

  • Pipeline(Copy Activity)
  • Dataflow Gen2(Power Query ベース)
  • Notebook(PySpark 等)

の特徴や使い分けを、比較表形式でわかりやすく整理しました。

ユースケースに応じて最適な選択をできるように、対象ユーザー/スキル/変換の複雑さ/開発インターフェースなどの観点でまとめています。

Fabricをこれから導入しようとしている方、PoCフェーズで手段に迷っている方の参考になれば幸いです 🙌

項目 Pipeline(Copy Activity) Dataflow Gen2 Notebook
主な用途 データレイク/DWHへの取り込み、軽量ETL データ整形・変換(データラングリング) 高度なデータ処理、ML前処理など
対象ユーザー データエンジニア、データ統合担当 ビジネスアナリスト データサイエンティスト、開発者
スキルセット ETL、SQL、JSON ETL、M 言語、SQL Python (PySpark)、Spark SQL、Scala、R
開発インターフェース GUI(ウィザード・キャンバス)
ノーコード/ローコード
Power Query(GUI)
ノーコード/ローコード
ノートブック上でのコード(コード必須)
対応ソース数 30以上のコネクタ 150以上のコネクタ Spark ライブラリ経由で無数
対応シンク数 18以上のデスティネーション 少数(Lakehouseテーブルなど) ほぼ制限なし(Sparkの出力対象)
変換の複雑度 低:型変換、列マッピング、階層フラット化など 中〜高:300以上の関数 高:ネイティブSpark処理、外部ライブラリ利用可
代表的なシナリオ オンプレCSV → Lakehouseファイルへの取り込み Excel/SharePointデータ → Delta変換 非構造データ処理、MLと連携した分析処理

ユースケース別おすすめ

利用シーン 推奨手段
ファイルのコピーや移行中心の処理 ✅ Pipeline
GUIベースでのデータ前処理や簡易ETL ✅ Dataflow Gen2
柔軟なETLや分析処理、機械学習との連携 ✅ Notebook
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?