はじめに
Azure Data Factory でできたことをできるのか確認
- ほぼすべての参考:https://qiita.com/yaagi/items/eb6a86e0c9a2fc3b3e61
- docs : https://learn.microsoft.com/ja-jp/azure/data-factory/connector-sharepoint-online-list?tabs=data-factory#copy-file-from-sharepoint-online
- fabric docs : https://learn.microsoft.com/ja-jp/fabric/data-factory/connector-sharepoint-online-list-overview
2024-04-08 時点の情報です。
連携対象
10_ファイル連携フォルダの全ファイルをもってきたい
検証手順
疎通準備
- アプリ登録、サイトアクセス許可を実施(https://learn.microsoft.com/ja-jp/fabric/data-factory/connector-sharepoint-online-list-copy-activity)
- レイクハウスを作成して、出力先のフォルダ作っておく(https://learn.microsoft.com/ja-jp/fabric/data-engineering/tutorial-build-lakehouse)
- 接続を構成しておく(https://learn.microsoft.com/ja-jp/fabric/data-factory/connector-sharepoint-online-list)
※遷移用URL https://app.fabric.microsoft.com/groups/me/gateways - パイプラインを作成して対象フォルダを示すパラメータを作成
- 作成した接続でもってルックアップを構成
- 配列が帰ってきました
- Lookupした結果をフィルタします
@and(
startswith(item().パス,pipeline().parameters.directory)
,equals(item().コンテンツタイプ,'ドキュメント'))
ファイルを取得する(トークン取得)
ファイル取得では専用の子パイプラインを作成してみます。
まずはトークンを取得するためのWebアクティビティを使います。
- http 接続
https://accounts.accesscontrol.windows.net/ への Web v2 接続を構成します。末尾のスラッシュ忘れずに
※遷移用URL https://app.fabric.microsoft.com/groups/me/gateways
- 新しいパイプラインを作成してパラメータを追加
- web アクティビティを追加して、
相対URL
@concat(pipeline().parameters.tenant_id,'/tokens/OAuth/2')
本文
@concat(
'grant_type=client_credentials&client_id=',
pipeline().parameters.client_id,
'@',
pipeline().parameters.tenant_id,
'&client_secret=',
pipeline().parameters.client_secret,
'&resource=00000003-0000-0ff1-ce00-000000000000/',
pipeline().parameters.tenant_name,
'.sharepoint.com@',
pipeline().parameters.tenant_id
)
ヘッダー
名前:Content-Type
値:application/x-www-form-urlencoded
4. 一度実行して、成功を確認したら入力と出力についてセキュリティで保護のチェックをつけましょう
ファイルを取得する(ファイル取得、書き込み)
- [テナント名].sharepoint.com への Web 接続 を構成します。末尾のスラッシュ忘れずに。また、ここではテスト接続をスキップしましょう。(ここを間違えるとはまります)
※遷移用URL https://app.fabric.microsoft.com/groups/me/gateways
URLはhttps://{テナント名}.sharepoint.com/sites/{サイト名}/_api/web/ で入力 - コピーアクティビティを後続に追加してソース設定を以下のようにします。
相対 URL
GetFileByServerRelativeUrl('@{pipeline().parameters.file_path}/@{pipeline().parameters.file_name}')/$value
追加のヘッダー
@{concat('Authorization: Bearer ', activity('get_access_token').output.access_token)}
※アクティビティ名に合わせてください。
3. あて先の設定をします
ファイルパス(フォルダ)
@replace(
concat(pipeline().parameters.distination_path,
'/',
pipeline().parameters.file_path)
,pipeline().parameters.directory
,''
)
ファイルパス(ファイル名)
@pipeline().parameters.file_name
4.ルックアップを構成したパイプラインに戻ってfor_eachを追加
項目
@activity('Filter1').output.value
5.パイプライン呼び出しを for_each内に形成。各種のパラメータ内容は変数などにすると管理が楽かもしれません
tenant_id: サービスプリンシパル情報から取得
client_id: サービスプリンシパル情報から取得
client_secret: サービスプリンシパル情報から取得(secretはkeyvaultから取れるようになってほしいですね
tenant_name: [tenant_name].sharepoint.com 形式のURLから取得
file_path:
@item().パス
file_name:
@item().名前
distination_path: ファイルを出力したフォルダ名。今回の例なら冒頭に作成したレイクハウスのフォルダ名からsharepoint
directory:
@pipeline().parameters.directory
6.実行すると、フォルダ内のファイル3点すべて連携されました。ファイル数が多い場合に時間がかかりそうなのが心配なので、標準機能でバルクなファイルコピーできるようになるのを期待
はまったところメモ
ACSの有効化
既定で無効となっているので有効化する必要がある
2018 年 11 月 7 日より後に構築されたテナントの場合、ACS は既定で無効になっています。
なお、ACSは廃止されるらしいので EntraID API許可でつないだほうがよさそう。サイトレベルのアクセス許可にはGraphAPIでの操作が必要ぽいけど要検証
MSGraph API によるアクセストークン取得とSharepont API使用
2024-04-08追記
できたので備忘メモ(当分はやる必要なしなので自分用)
graph api 用のアクセストークン取得(Post)する。Web V2 コネクタ(https://login.microsoftonline.com/)
URL
@concat(pipeline().parameters.tenant_id,'/oauth2/v2.0/token')
body
@concat(
'grant_type=client_credentials&client_id=',
pipeline().parameters.client_id,
'@',
pipeline().parameters.tenant_id,
'&client_secret=',
pipeline().parameters.client_secret,
'&scope=https://graph.microsoft.com/.default'
)
siteId をgetする。Web V2 コネクタ(https://graph.microsoft.com/)
URL
v1.0/sites/pipeline().parameters.tenant_name:/sites/{sitename}
nameでフィルタして、Web コネクタ(https://graph.microsoft.com/)で取得
v1.0/sites/pipeline().parameters.tenant_name,
'.sharepoint.com,{siteId}/drive/root:/General/{fileName}:/content
利用したAPI https://learn.microsoft.com/ja-jp/graph/api/driveitem-get?view=graph-rest-1.0&tabs=http
メモ:サイトを絞る場合 https://qiita.com/mnrst/items/4315fdbe80c9cb0e5640