Watson Discoveryを使用する場合、IBM Cloud Pak for Data上で稼働するサービスとしてインストールする方法(以下、CP4D版)と、IBM Cloud上のSaaSとして利用する方法(以下、IBM Cloud版)があります。
普段、CP4D版でBoxクロールを使用していますが、IBM Cloud版を使用したところ、意外と違いがあることに気づきましたので、記録しておくことにします。2022年10月現在の情報です。
主な違い
構成関連:
- Boxアプリの作成方法
- IBM Cloud版では、パスフレーズなしの秘密鍵は使用できないので要注意です。
- WD collectionの設定方法
挙動:
- スケジュール・クロール(更新のクロール)の設定、動き
- サポートされる機能
-
文書レベルのセキュリティー
はCP4D版だけでサポートされます。
-
Boxクロールの構成方法
CP4D版
CP4D版 Watson DiscoveryのBoxクロール方法
*下のIBM Cloud版の記事を参考に書きました
IBM Cloud版
Watson DiscoveryのBOXクロール方法
スケジュール・クロール
コレクションを作成すると、最初のクロールが即時に開始します。クロール・スケジュールに選択する頻度によって、次のクロールがいつ開始されるかを指定できます。
スケジュール・クロールでのクロール・タイプの指定
CP4D版では、More scheduling setting
から、スケジュール・クロールで実行されるクロールのタイプを指定できます。次の3つから選択できます。
-
Full crawling
: 外部データ・ソースを再クロールして、コレクション内の文書を更新します。 -
Crawling updates (look for new, modified, and deleted content)
: 更新のクロール (新規、変更、および削除されたコンテンツの検索)。最後のクロール以降に外部データ・ソースのデータが追加、変更、または削除された場合にのみ、コレクションを更新します。 -
Crawling new and modified content
: 新規コンテンツおよび変更されたコンテンツのクロール。最後のクロール以降に追加または変更された外部データ・ソース内のデータの場合にのみ、コレクションを更新します。
これに対して、IBM Cloud版では、スケジュール・クロールのクロールタイプを選択することはできません。一律で、次の挙動となります。
- 新規コンテンツおよび変更されたコンテンツのクロール
- データ・ソースで削除された文書はコレクションから削除されません
また、IBM Cloud版では、アプリアクセスレベル
がアプリ+ Enterpriseアクセス
となっているBoxアプリを使用している場合についてのみ、スケジュールされたクロールで文書の更新がサポートされます。(アプリアクセス
のBoxアプリの場合は、スケジュールされたクロールで文書の更新がサポートされません。)
スケジュール・クロールの頻度の指定について
CP4D版、IBM Cloud版とも次の頻度を選択できます。
- Hourly
- Daily
- Weekly
- Monthly
これに加えて、CP4D版では、Custom intervals
という選択肢があり、Minutes/Hours/Daysを組み合わせた、より柔軟な頻度を指定できます。
また、CP4D版のBoxクロール(Webクロール以外のクローラー)に関しては、次のように特定の日時からスケジュール・クロールを実行するように指定することができます。
スケジュール・クロール その他の違い
少し選択の幅が狭いIBM Cloud版のスケジュール・クロールですが、CP4D版にはない機能があります。ToolingUIに、スケジュール・クロールの次回実行予定日時が表示されるのです。
公式ドキュメント
構成について:
-
IBM Cloud: IBM Cloud データ・ソースの構成 > Box
スケジュール・クロール(更新のクロール)について: