Microsoft Fabric における Pipeline / Dataflow Gen2 / Notebook の使い分け

Posted at 2025-05-16

Microsoft Fabric を活用してデータ基盤や分析環境を構築する際、

「どの方法でデータを取り込めば良いのか？」
「Pipeline、Dataflow Gen2、Notebook のどれを使えばいいのか？」

といった悩みを抱える方も多いのではないでしょうか。

本記事では、Microsoft Fabric における代表的な3つのデータ取り込み手段：

の特徴や使い分けを、比較表形式でわかりやすく整理しました。

ユースケースに応じて最適な選択をできるように、対象ユーザー／スキル／変換の複雑さ／開発インターフェースなどの観点でまとめています。

Fabricをこれから導入しようとしている方、PoCフェーズで手段に迷っている方の参考になれば幸いです 🙌

項目	Pipeline（Copy Activity）	Dataflow Gen2	Notebook
主な用途	データレイク／DWHへの取り込み、軽量ETL	データ整形・変換（データラングリング）	高度なデータ処理、ML前処理など
対象ユーザー	データエンジニア、データ統合担当	ビジネスアナリスト	データサイエンティスト、開発者
スキルセット	ETL、SQL、JSON	ETL、M 言語、SQL	Python (PySpark)、Spark SQL、Scala、R
開発インターフェース	GUI（ウィザード・キャンバス）ノーコード／ローコード	Power Query（GUI）ノーコード／ローコード	ノートブック上でのコード（コード必須）
対応ソース数	30以上のコネクタ	150以上のコネクタ	Spark ライブラリ経由で無数
対応シンク数	18以上のデスティネーション	少数（Lakehouseテーブルなど）	ほぼ制限なし（Sparkの出力対象）
変換の複雑度	低：型変換、列マッピング、階層フラット化など	中〜高：300以上の関数	高：ネイティブSpark処理、外部ライブラリ利用可
代表的なシナリオ	オンプレCSV → Lakehouseファイルへの取り込み	Excel/SharePointデータ → Delta変換	非構造データ処理、MLと連携した分析処理

ユースケース別おすすめ