はじめに
前回の記事では、OneLake が Microsoft Fabric 全体の中心となるデータ基盤であり、
OneDrive や SharePoint といった日常業務向けのストレージとは設計目的が異なることを整理しました。
では、Fabric を触り始めるときに最初にどこから手を付ければよいのか。
多くの人が最初に悩むのは、
- OneLake にどうデータを置くのか
- どこに置けば Notebook や Power BI から利用できるのか
- Lakehouse の「Files」と「Tables」をどう使い分けるのか
- ショートカットの役割は何なのか
といった、初手の整理が必要な部分だと思います。
この記事では、Power BI から Fabric にステップアップしたい方向けに、
OneLake にデータを配置するための基本をまとめています。
1. OneLake にデータを置く方法はいくつかある
OneLake はデータレイクであるため、データの配置方法は一つではありません。
代表的なものは次のとおりです。
■ OneLake にデータを置く主な方法
- Lakehouse の Files に手動アップロード
- OneLake File Explorer(Windows クライアント)でコピー
- ショートカット(Shortcuts)で外部ストレージを参照
- Pipeline(Data Factory)や Dataflow Gen2 を使って取り込む
- Notebook から直接書き込む
まずは Lakehouse の Files に置いてみるのが理解しやすいと思います。
2. 最初に触れるべきは「Lakehouse の Files」
Lakehouse には次の2つの領域があります。
| 領域 | 役割 | 主な用途 |
|---|---|---|
| Files | 生データを保存する領域 | CSV、JSON、画像、ログなど。Notebook(Spark)から直接読み取れる |
| Tables | Delta 形式のデータを保存する領域 | Notebook や Dataflow Gen2 が生成。SQL や Power BI(Direct Lake)で利用 |
Power BI の操作に慣れている方は、
Files が素材置き場、Tables が加工済みの分析用データ と考えると整理しやすいと思います。
■ 実際にアップロードしてみる
Lakehouse の「Files」フォルダーを開くと、フォルダ構造が表示されます。
ここにファイルをドラッグ&ドロップするとアップロードできます。
対応する形式の例:
- CSV
- JSON
- Parquet
- ログ
- 画像
アップロードしたデータは Notebook から次のように読めます。
df = spark.read.format("csv").option("header", "true").load("Files/mydata.csv")
最初の試行としては、この方法が取り組みやすいと思います。
3. OneLake File Explorer を使う
Microsoft が提供する Windows クライアントで、
OneLake をローカルフォルダに近い操作感で扱えます。
■ 特徴
- フォルダ構造で OneLake を閲覧できる
- ファイルのコピー・移動が簡単
- 実体は ADLS Gen2 上のストレージ
■ 補足
OneLake は業務文書の長期保管を想定した場所ではなく、
分析向けデータの配置に適したレイヤーです。
日常のファイル管理は OneDrive/SharePoint を使うほうが適しています。
4. ショートカット(Shortcuts)で外部ストレージを参照する
OneLake の特徴の一つに、外部ストレージをコピーせず参照できるショートカットがあります。
■ 参照できるストレージ例
- OneLake 内の別 Workspace
- Azure Data Lake Storage Gen2
- Amazon S3
- Google Cloud Storage
- Dataverse
- 他テナント(DataShare)
- オンプレミス(ゲートウェイ経由)
■ 注意点
- 書き込み可否は参照先によって異なる
- S3 / GCS / Dataverse / DataShare は読み取り専用
- Notebook で扱えるのは ファイル形式 または Delta が中心
データを複製せずに扱えるため、規模が大きい環境では特に有効です。
5. Notebook から扱うための前提
Notebook(Spark)が扱える主な領域は次のとおりです。
- Lakehouse の Files
- Lakehouse の Tables (Delta)
- OneLake 内ショートカット(ファイル形式)
Notebook を「Files と Tables を扱うための手段」と捉えると整理しやすくなります。
6. 実運用では、手動アップロード以外の手段が中心になる
ここまでは OneLake を触るための入口として、
最もわかりやすい方法である手動アップロードを紹介しています。
ただし、日々更新されるデータを扱う場合、
手動でファイルを投入し続ける運用は現実的ではありません。
実際には、次のような方法が使われることが多いです。
- Pipeline(Data Factory)で自動取り込み
- Dataflow Gen2 による定期処理
- Power Automate を使ったアップロード
- Notebook のスケジュール実行
- 外部ストレージをショートカットで参照
最初は手動で全体像を把握し、
その後、運用に合わせて自動化へ移行するケースが多く見られます。
7. OneLake の理解を深めやすい進め方
Power BI ユーザーが Fabric を理解していく際には、
次のような順番で触っていくと構造がつかみやすいと感じています。
- Lakehouse を作成する
- Files にデータを置いてみる
- Notebook で読み込んでみる
- Delta(Tables)として保存してみる
- Power BI(Direct Lake)で可視化する
この一連の流れを経験すると、OneLake の位置づけがより明確になってきます。
8. まとめ
- OneLake へのデータ配置方法は複数ある
- 初めて触れる場合は、まず Lakehouse の Files に置くのがわかりやすい
- Files は生データの置き場、Tables は Delta の分析用データ
- OneLake File Explorer を使うと Windows から直接確認・コピーできる
- ショートカットを使えば外部ストレージを複製せず参照できる
- 実運用では Pipeline / Dataflow Gen2 / ショートカットなどの自動化が中心
- この基礎を押さえると、Notebook や Direct Lake に進みやすくなる
次回は、Notebook を使って OneLake 上のデータを読み込み、
加工し、Delta として保存する流れを整理していきます。
最後に
テンダでは、「こんなプロジェクトに挑戦したい」「こんなチームで働きたい」「理想のチームを創りたい」と願う仲間を求めています。
カジュアル面談も随時受付中です。ぜひ一度お話ししましょう![]()
