#はじめに
oneWEXを使ってみた時のメモです。
ここでは、Windowsファイルシステムクローラーによるデータの取り込みの辺りをやってみます。
##関連記事
インストール関連
oneWEX導入メモ / Ubuntu編
oneWEX導入メモ / RHEL7.6 オフライン編
検索関連
oneWEX検証メモ - (0) 概要理解
oneWEX検証メモ - (1)ファイルシステムクローラーによるデータの取り込み / データセット、コレクションの作成
oneWEX検証メモ - (2)Windowsファイルシステムクローラーによるデータの取り込み
oneWEX検証メモ - (3)ContentMinerによる文書の検索
oneWEX検証メモ - (4)ApplicationBuilderによるWebアプリの作成と文書の検索
分析関連
oneWEX検証メモ - (5)ContentMinerによる分析 / ガイド付きモード
oneWEX検証メモ - (6)ContentMinerによる分析 / 各種"ID情報"をベースとした分析
API関連
oneWEX検証メモ - (7)REST API
データの取り込み
事前準備
対象のファイル配置
PDFとかExcelとか適当なファイルを作成して、WindowsServerに配置します。
(前回やった内容と同じ構造のディレクトリ/ファイルを配置します)
Agentの導入
参考: Windows ファイル・システムのエージェント・クローラー
WindowsServer側に、Windows上のファイルをクロールするための専用のAgentを導入します。これは、Watson Explorer Deep Analytics Editionに含まれており、Watson Explorer Content Analytics Agent for Windows File Systems という名前でインストーラーが提供されています。
GUIのインストーラーが提供されているので、指示に従ってインストールすればOKです。
インストール先のディレクトリや、接続に使用するユーザー/パスワード、Listenするポート番号などを指定します。
デフォルトだとポート番号は8397,8398,8399番ポート(tcp)が使われます。
インストール後はWindowsの再起動が必要になります。
導入が完了すると、AgentはWindowsのサービスとして稼働します。
※Firewallがある場合、上のポート番号の通信を通す必要があるので注意!
対象ディレクトリの公開
どのディレクトリを公開するかというのをAgentに登録します。
これは、コマンドプロンプトからesagentコマンドで実行します。
c:\>esagent --addshare c:\oneWexTest03
Microsoft (R) Windows Script Host Version 5.8
Copyright (C) Microsoft Corporation. All rights reserved.
Adding share folder successfully.
c:\>esagent --lsshare
Microsoft (R) Windows Script Host Version 5.8
Copyright (C) Microsoft Corporation. All rights reserved.
===================== Share Folders =======================
share0: c:\oneWexTest03
##データセットの作成
Admin ConsoleにてoneWexTest03という名前でデータセットを作成します。
クローラー・タイプとしては、「Windowsファイルシステムのエージェント」を選択します。
データソースのプロパティー欄では、WindowsServerのホスト名、Agentのポート、Agentアクセス用のユーザーID/パスワードを指定します。
上の画面のクロールスペースのアクションの所の"検索と追加"をクリック
Agentで公開したディレクトリが表示されるので、選択して追加をクリック
クローラーの作成を完了し、クロールを実施します。
データセットoneWexTest03が作成されました(Windowsファイルシステムクローラー経由)。
データの解析/加工(コレクションの作成)
コレクションの作成手順は前回と同じなので画面キャプチャは割愛します。
oneWexTest03という名前で、上で作成した同名のデータセットを指定します。また、エンリッチの言語の識別で"日本語"のみを選択しておきます。あとはデフォルトで。
データの検索/分析操作
ContentMinerから、上で作成したコレクションを選択してみると、前回作ったコレクションと同じように操作ができるのが分かります。
クローラーごとの簡単な比較
さて、前回はローカルのファイルシステムをクロールしてデータを取り込んでみましたが、それとは若干取得されている様子が違っているようです。
クローラー経由でデータを取り込むと、自動的にメタデータファセットというものが付与されており、ファイルサイズや更新日付などの情報を取り込んでくれています。が、クローラーによって若干その辺りが違っているようです。
前回のファイルシステム・クローラー(ローカルのファイルシステム)と、Windowsファイルシステムクローラー(Agent経由)で気が付いた違いをまとめてみます。
Test01(ローカル) | Test02(ローカル+NFS) | Test03(Agent) | 補足 | |
---|---|---|---|---|
インフラ追加構成 | dokerからファイルシステムマウント | dockerからファイルシステムマウント NFS構成 |
Agent構成 | |
クローラー | ファイルシステムクローラー | ファイルシステムクローラー | Windowsファイルシステムクローラー | |
メタデータファセットの種類 | CrawlerName CrawlerId FileName Title CrawlSpaceId Directory FileSize Extension |
CrawlerName CrawlerId FileName Title CrawlSpaceId Directory FileSize Extension |
CrawlerName CrawlerId File_Name Title CrawlSpaceId Directory_Name File_Size |
Test03のみExtension情報(ファイル拡張子)が取れない。 ファセット名のデフォルトが微妙に違う(カスタマイズは可能)。 |
Directory情報 | フルパス(例: /mnt/oneWexTest01/TroubleReport/チーム01) | フルパス(例: /mnt/oneWexTest01/TroubleReport/チーム01) | 直前のディレクトリのみ(例: チーム01) |