Windows OS への Fess + 外部 Elasticsearch 導入手順 の続き。
サンプルデータ
動作確認用として C:/fess-search/
配下に以下のようなファイルを作成した。
- 夏目漱石_吾輩は猫である.pdf
- 夏目漱石_坊っちゃん.docx
- 太宰治_人間失格.docx
- 芥川龍之介_羅生門.pdf
- 芥川龍之介_トロッコ.docx
中身の文書は青空文庫より拝借。
クローラーの設定
http://localhost:8080/login/
管理画面にログインする。
今回はファイルに対してのクロールが可能な「ファイルクロール」を試す。
「ウェブクロール」については割愛する。
https://fess.codelibs.org/ja/13.9/admin/fileconfig-guide.html
クローラ > ファイルシステム > 新規作成
項目 | 設定値 |
---|---|
名前 | 任意 |
パス | file:/C:/fess-search/ |
クロール対象とするパス | file:/C:/fess-search/.* |
検索対象とするパス | |
深さ | 1 |
スレッド数 | 5 |
間隔 | 1000 |
ブースト値 | 1.0 |
パーミッション | {role}guest |
状態 | 有効 |
検索対象のディレクトリ階層に応じて、深さの値は設定する。
クロールの実施
システム > スケジューラ > Default Crawler > 今すぐ開始
システム情報 > ジョブログ
状態が実行中から OK に変化すればクロール完了
システム情報 > クロール情報
インデックスのサイズ(ウェブ/ファイル)にインデックスされたファイル数が表示されている
クロール結果の自動削除設定
有効期限の変更
Fessでは、クロール時にインデックスしたデータに、有効期限を設定しています。標準では3日が設定されているため、3日後には収集したデータが削除されます。削除されないようにするためには、管理画面から「全般」のクローラの設定で「以前のドキュメントを削除」の値を-1日に設定してください。
クロール結果を永続的に検索対象として残す場合には上記、設定変更が必要。
特定の拡張子のみをクロール
PDF ファイルのみを対象にクロールさせる場合は以下を追加する。
項目 | 設定値 |
---|---|
検索対象とするパス | .*\.pdf$ |
全文検索の実施
http://localhost:8080/
Fess 検索画面より検索を行い、インデックスの正常性を確認する。
インデックスの削除
システム情報 > 検索
フォームに url:"file:/C:/fess-search/*"
のように入力して検索を実施するとクロールの蓄積情報が表示される。
適宜、削除を行うことで全文検索にヒットしなくなる。