Microsoft Fabric を活用してデータ基盤や分析環境を構築する際、
「どの方法でデータを取り込めば良いのか?」
「Pipeline、Dataflow Gen2、Notebook のどれを使えばいいのか?」
といった悩みを抱える方も多いのではないでしょうか。
本記事では、Microsoft Fabric における代表的な3つのデータ取り込み手段:
- Pipeline(Copy Activity)
- Dataflow Gen2(Power Query ベース)
- Notebook(PySpark 等)
の特徴や使い分けを、比較表形式でわかりやすく整理しました。
ユースケースに応じて最適な選択をできるように、対象ユーザー/スキル/変換の複雑さ/開発インターフェースなどの観点でまとめています。
Fabricをこれから導入しようとしている方、PoCフェーズで手段に迷っている方の参考になれば幸いです 🙌
項目 | Pipeline(Copy Activity) | Dataflow Gen2 | Notebook |
---|---|---|---|
主な用途 | データレイク/DWHへの取り込み、軽量ETL | データ整形・変換(データラングリング) | 高度なデータ処理、ML前処理など |
対象ユーザー | データエンジニア、データ統合担当 | ビジネスアナリスト | データサイエンティスト、開発者 |
スキルセット | ETL、SQL、JSON | ETL、M 言語、SQL | Python (PySpark)、Spark SQL、Scala、R |
開発インターフェース | GUI(ウィザード・キャンバス) ノーコード/ローコード |
Power Query(GUI) ノーコード/ローコード |
ノートブック上でのコード(コード必須) |
対応ソース数 | 30以上のコネクタ | 150以上のコネクタ | Spark ライブラリ経由で無数 |
対応シンク数 | 18以上のデスティネーション | 少数(Lakehouseテーブルなど) | ほぼ制限なし(Sparkの出力対象) |
変換の複雑度 | 低:型変換、列マッピング、階層フラット化など | 中〜高:300以上の関数 | 高:ネイティブSpark処理、外部ライブラリ利用可 |
代表的なシナリオ | オンプレCSV → Lakehouseファイルへの取り込み | Excel/SharePointデータ → Delta変換 | 非構造データ処理、MLと連携した分析処理 |
ユースケース別おすすめ
利用シーン | 推奨手段 |
---|---|
ファイルのコピーや移行中心の処理 | ✅ Pipeline |
GUIベースでのデータ前処理や簡易ETL | ✅ Dataflow Gen2 |
柔軟なETLや分析処理、機械学習との連携 | ✅ Notebook |