0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

oneWEX検証メモ - (2)Windowsファイルシステムクローラーによるデータの取り込み

Last updated at Posted at 2019-10-06

#はじめに
oneWEXを使ってみた時のメモです。
ここでは、Windowsファイルシステムクローラーによるデータの取り込みの辺りをやってみます。

##関連記事

インストール関連
oneWEX導入メモ / Ubuntu編
oneWEX導入メモ / RHEL7.6 オフライン編

検索関連
oneWEX検証メモ - (0) 概要理解
oneWEX検証メモ - (1)ファイルシステムクローラーによるデータの取り込み / データセット、コレクションの作成
oneWEX検証メモ - (2)Windowsファイルシステムクローラーによるデータの取り込み
oneWEX検証メモ - (3)ContentMinerによる文書の検索
oneWEX検証メモ - (4)ApplicationBuilderによるWebアプリの作成と文書の検索

分析関連
oneWEX検証メモ - (5)ContentMinerによる分析 / ガイド付きモード
oneWEX検証メモ - (6)ContentMinerによる分析 / 各種"ID情報"をベースとした分析

API関連
oneWEX検証メモ - (7)REST API

#全体像
image.png

データの取り込み

事前準備

対象のファイル配置

PDFとかExcelとか適当なファイルを作成して、WindowsServerに配置します。
(前回やった内容と同じ構造のディレクトリ/ファイルを配置します)

Agentの導入

参考: Windows ファイル・システムのエージェント・クローラー

WindowsServer側に、Windows上のファイルをクロールするための専用のAgentを導入します。これは、Watson Explorer Deep Analytics Editionに含まれており、Watson Explorer Content Analytics Agent for Windows File Systems という名前でインストーラーが提供されています。
GUIのインストーラーが提供されているので、指示に従ってインストールすればOKです。
インストール先のディレクトリや、接続に使用するユーザー/パスワード、Listenするポート番号などを指定します。
デフォルトだとポート番号は8397,8398,8399番ポート(tcp)が使われます。
インストール後はWindowsの再起動が必要になります。
導入が完了すると、AgentはWindowsのサービスとして稼働します。
image.png

※Firewallがある場合、上のポート番号の通信を通す必要があるので注意!

対象ディレクトリの公開

参考: エージェント・サーバーでの共有ディレクトリーの構成

どのディレクトリを公開するかというのをAgentに登録します。
これは、コマンドプロンプトからesagentコマンドで実行します。

追加例
c:\>esagent --addshare c:\oneWexTest03
Microsoft (R) Windows Script Host Version 5.8
Copyright (C) Microsoft Corporation. All rights reserved.

Adding share folder successfully.
確認例
c:\>esagent --lsshare
Microsoft (R) Windows Script Host Version 5.8
Copyright (C) Microsoft Corporation. All rights reserved.

===================== Share Folders =======================
 share0: c:\oneWexTest03

##データセットの作成

Admin ConsoleにてoneWexTest03という名前でデータセットを作成します。
クローラー・タイプとしては、「Windowsファイルシステムのエージェント」を選択します。
データソースのプロパティー欄では、WindowsServerのホスト名、Agentのポート、Agentアクセス用のユーザーID/パスワードを指定します。
image.png

上の画面のクロールスペースのアクションの所の"検索と追加"をクリック
Agentで公開したディレクトリが表示されるので、選択して追加をクリック
image.png

クローラーの作成を完了し、クロールを実施します。

データセットoneWexTest03が作成されました(Windowsファイルシステムクローラー経由)。
image.png

データの解析/加工(コレクションの作成)

コレクションの作成手順は前回と同じなので画面キャプチャは割愛します。
oneWexTest03という名前で、上で作成した同名のデータセットを指定します。また、エンリッチの言語の識別で"日本語"のみを選択しておきます。あとはデフォルトで。

コレクションoneWexTest03が追加されました。
image.png

データの検索/分析操作

ContentMinerから、上で作成したコレクションを選択してみると、前回作ったコレクションと同じように操作ができるのが分かります。
image.png

image.png

クローラーごとの簡単な比較

さて、前回はローカルのファイルシステムをクロールしてデータを取り込んでみましたが、それとは若干取得されている様子が違っているようです。
クローラー経由でデータを取り込むと、自動的にメタデータファセットというものが付与されており、ファイルサイズや更新日付などの情報を取り込んでくれています。が、クローラーによって若干その辺りが違っているようです。

前回のファイルシステム・クローラー(ローカルのファイルシステム)と、Windowsファイルシステムクローラー(Agent経由)で気が付いた違いをまとめてみます。

Test01(ローカル) Test02(ローカル+NFS) Test03(Agent) 補足
インフラ追加構成 dokerからファイルシステムマウント dockerからファイルシステムマウント
NFS構成
Agent構成
クローラー ファイルシステムクローラー ファイルシステムクローラー Windowsファイルシステムクローラー
メタデータファセットの種類 CrawlerName
CrawlerId
FileName
Title
CrawlSpaceId
Directory
FileSize
Extension
CrawlerName
CrawlerId
FileName
Title
CrawlSpaceId
Directory
FileSize
Extension
CrawlerName
CrawlerId
File_Name
Title
CrawlSpaceId
Directory_Name
File_Size
Test03のみExtension情報(ファイル拡張子)が取れない。
ファセット名のデフォルトが微妙に違う(カスタマイズは可能)。
Directory情報 フルパス(例: /mnt/oneWexTest01/TroubleReport/チーム01) フルパス(例: /mnt/oneWexTest01/TroubleReport/チーム01) 直前のディレクトリのみ(例: チーム01)
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?