0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

OneLakeのショートカット機能:データ統合と活用の新常識

Posted at

1.はじめに

Microsoft Fabric の中核をなすデータレイクである OneLake のショートカット機能は、データの物理的なコピーを増やすことなく、異なる場所(組織内外)のデータにアクセスを可能にする画期的な機能です。これにより、データの一貫性、ガバナンス、そして分析効率の向上が期待されます。

OneLake のショートカット機能について、特徴と仕組み、作成手順、メリットおよび潜在的な活用方法を説明し、考慮点についても補足します。

2.前提と課題

2.1. OneLakeとは

OneLake は、Microsoft Fabric における組織全体のデータレイクであり、データの一元化されたストレージ層として機能します。これは、Azure Data Lake Storage Gen2 (ADLS Gen2) を基盤として構築されており、組織内のすべての Fabric ワークロードが共有する単一の論理データレイクとして設計されています。それゆえデータが一度 OneLake に取り込まれると、重複することなく、Lakehouse、Data Warehouse、KQL Database、Power BI など、Fabric 内の様々なエンジンからアクセス・利用できるようになります。

2.2. ショートカット機能の必要性

従来のデータレイクアーキテクチャでは、異なるデータソース(例: 他社のクラウドストレージ、オンプレミスのストレージ)や、組織内の異なる部門が管理するデータにアクセスする際、以下のような課題がありました。

  • データの重複: 効率化のためにデータを複製すると、ストレージコストが増加し、データの一貫性維持が困難になる
  • データの移動: 大容量データを頻繁に移動させることは、時間とコストがかかるだけでなく、データ鮮度が落ちる原因にもなる
  • データガバナンスの複雑化: 複数のデータコピーが存在すると、アクセス管理やセキュリティ、コンプライアンスの維持が複雑になる

OneLake のショートカット機能は、これらの課題を解決し、データの物理的な移動や複製をおこなわず、論理的なデータ統合を可能にすることで、より効率的でガバナンスの効いたデータ管理を実現します。

3.機能解説と動作確認

OneLake のショートカット機能は、外部のストレージロケーション(例: ADLS Gen2、Amazon S3、または同じ OneLake 内の別の場所)にあるデータを、あたかもローカルに存在するかのように OneLake 内で参照できる機能です。

3.1. ショートカットの種類

OneLake ショートカットは、主に以下の2種類をサポートします。

  • 内部ショートカット (Internal Shortcuts):

    • 同じ Fabric テナント内の OneLake にある異なるワークスペース、Lakehouse、またはデータウェアハウス内のファイルやフォルダーなど既存の Fabric 項目内のデータを参照
    • 例: チームAのLakehouseにあるデータを、チームBのLakehouseから参照
  • 外部ショートカット (External Shortcuts):

    • Azure Data Lake Storage Gen2 (ADLS Gen2) や Amazon S3 など、外部のクラウドストレージアカウントにあるデータを参照
    • 例: 既存のADLS Gen2に保存されているレガシーデータを、Fabric の Lakehouse から直接利用

3.2. 仕組みとメリット

OneLake のショートカットは、物理的なデータのコピーを作成するのではなく、シンボリックリンクやポインターのように機能します。 Fabric 内のエンジン(Spark、SQLなど)がショートカット経由でデータにアクセスしようとすると、OneLake はそのリクエストを元のストレージロケーションに透過的にルーティングします。

ショートカットにより、透過的にデータへアクセスできることで得られる主なメリットは以下です。

  • データ複製コストの削減: ストレージコストと、複製によるデータ移動の時間を削減できる
  • データ一貫性の向上: 常に元の場所にあるデータへアクセスするため、複数のデータコピー間の不整合のリスクがなくなる
  • ガバナンスの簡素化: アクセス制御やセキュリティポリシーは、元のストレージロケーションで一元的に管理できます。Fabric 側では、ショートカットへのアクセス権限を管理するだけで済む
  • リアルタイム性の向上: データが複製されないため、元のデータが更新されれば、ショートカット経由で常に最新のデータにアクセスできる
  • データメッシュ戦略の実現: 異なるドメインやチームが独立してデータを管理しつつ、必要に応じて他のドメインのデータを論理的に共有・利用できるため、データメッシュアーキテクチャの構築を促進する
  • 移行の簡素化: 既存のADLS Gen2やS3に蓄積された大量のデータを、Fabric に移行することなく、すぐに利用開始できる

3.3. ショートカットの作成手順 (Amazon S3 の場合)

以下は、Amazon S3 のショートカットを作成する手順です。

1.Lakehouse に移動: Microsoft Fabric ポータルで、ショートカットを作成したい対象の Lakehouse を開きます。

2.「データを取得」または「...」メニューから選択: 「Files」セクションのメニューから「New shortcut」を選択します。

3.ショートカットの種類を選択: 接続したいソースとして「Amazon S3」を選択します。
(※ 他に内部ソースとして「Microsoft OneLake」、外部ソースとして「Azure Data Lake Storage Gen2」などが選択可)
image.png

4.接続設定:接続に必要な認証情報を入力します。
認証の種類が「基本」の場合、以下を入力します。
・URL:Amazon S3 バケットの接続文字列(値:https://BucketName.s3.RegionCode.amazonaws.com)
・接続名:任意
・ユーザー名:ID およびアクセス管理 (IAM) ユーザー キー(値:アクセスキー)
・パスワード:ID およびアクセス管理 (IAM) 秘密鍵(値:秘密鍵)

image.png

5.バケットまたはディレクトリを選択:4. 接続設定で正しい情報を入力後、ショートカットとして登録したいバケットまたはディレクトリが表示されるので選択します。

6.作成: 適宜ショートカット名を編集し、作成
image.png

7.左側の [エクスプローラー] ウィンドウの [テーブル] セクションにショートカットが表示されます。
(※ 私が試した際には、作成直後、[テーブル] セクションに「正体不明」のショートカットとして作成されました。「正体不明」箇所を右クリックし、「すべてのオブジェクトをFilesに移動」する必要がありました)
image.png

8.必要に応じてFilesフォルダのファイル(Parquetなど)をテーブルに読み込むことでAmazon S3に保存していたファイルをMicrosoft Fabricで分析することができます。
image.png

4.機能の応用と考慮点

4.1. 応用例

  • ハイブリッドデータレイク: オンプレミスや他のクラウドにデータを保持しながら、Fabric の分析能力を活用する
  • 部門横断的なデータ共有: 複数の部門やチームがそれぞれ独自の Lakehouse を持ちつつ、共通のマスターデータや参照データをショートカットで共有する
  • 段階的なデータ移行: 既存のレガシーデータレイクから Fabric への段階的な移行において、まずはショートカットでデータを参照し、必要に応じてデータを Fabric へ取り込む
  • データ製品の提供: あるチームが作成したクリーンなデータセットを、ショートカットを通じて他のチームの「データ製品」として提供する

4.2. 考慮事項と補足

  • パフォーマンス: ショートカット経由のパフォーマンスは、元のストレージの性能、ネットワーク帯域幅、およびデータの読み取りパターンに依存します。場合によっては、Fabric 内にデータを物理的に取り込んだ方がパフォーマンスを向上できることもあります
  • コスト: ショートカットそのものにコストはかかりませんが、元のストレージアカウントへのアクセス(読み取り/書き込み)には通常のストレージコストやデータ転送料金が発生します
  • 認証とアクセス管理: ショートカット先のデータへのアクセス権限は、元のストレージ側で管理されます。Fabric 側でのアクセス管理は、ショートカットへのアクセス権限と、元のストレージへの接続認証情報に依存します
  • スキーマの管理: ショートカットを通じて参照されるデータに対して、Fabric の Lakehouse や Data Warehouse でスキーマを適用する際は、元のデータのスキーマとの整合性を考慮する必要があります
  • データソースのサポート: 2025/6/14現在、外部ショートカットは ADLS Gen2, Amazon S3 と Google Cloud Storage をサポートしています。将来的に他のクラウドストレージサービスもサポートされる可能性があります

5.まとめ

OneLake のショートカット機能は、Microsoft Fabric におけるデータの統合と管理に革命をもたらす強力な機能です。物理的なデータの複製を避けつつ、組織内外の多様なデータソースに論理的にアクセスできることで、ストレージコストの削減、データ一貫性の向上、ガバナンスの強化、そして分析効率の最大化を実現します。

特に、既存のデータレイクからの段階的な移行、部門間のデータ共有、またはデータメッシュアーキテクチャの構築を目指す組織にとって、OneLake のショートカットは不可欠なツールとなるでしょう。パフォーマンスや認証管理といった考慮事項はありますが、そのメリットはデータドリブンな組織にとって計り知れない価値をもたらします。

6.参考資料

Microsoft Learn: OneLake ショートカットとは
https://learn.microsoft.com/ja-jp/fabric/onelake/onelake-shortcuts
Microsoft Learn: OneLake ショートカットの作成
https://learn.microsoft.com/ja-jp/fabric/onelake/create-onelake-shortcut

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?