LoginSignup
8
9

More than 3 years have passed since last update.

Fess ファイルクロール及び全文検索の実施

Last updated at Posted at 2021-01-26

Windows OS への Fess + 外部 Elasticsearch 導入手順 の続き。

サンプルデータ

動作確認用として C:/fess-search/ 配下に以下のようなファイルを作成した。

  • 夏目漱石_吾輩は猫である.pdf
  • 夏目漱石_坊っちゃん.docx
  • 太宰治_人間失格.docx
  • 芥川龍之介_羅生門.pdf
  • 芥川龍之介_トロッコ.docx

中身の文書は青空文庫より拝借。

クローラーの設定

http://localhost:8080/login/
管理画面にログインする。

今回はファイルに対してのクロールが可能な「ファイルクロール」を試す。
「ウェブクロール」については割愛する。

https://fess.codelibs.org/ja/13.9/admin/fileconfig-guide.html
クローラ > ファイルシステム > 新規作成

項目 設定値
名前 任意
パス file:/C:/fess-search/
クロール対象とするパス file:/C:/fess-search/.*
検索対象とするパス
深さ 1
スレッド数 5
間隔 1000
ブースト値 1.0
パーミッション {role}guest
状態 有効

image.png

検索対象のディレクトリ階層に応じて、深さの値は設定する。

クロールの実施

search02.png
システム > スケジューラ > Default Crawler > 今すぐ開始

search03.png
search04.png
システム情報 > ジョブログ
状態が実行中から OK に変化すればクロール完了

search05.png
システム情報 > クロール情報
インデックスのサイズ(ウェブ/ファイル)にインデックスされたファイル数が表示されている

クロール結果の自動削除設定

有効期限の変更
Fessでは、クロール時にインデックスしたデータに、有効期限を設定しています。標準では3日が設定されているため、3日後には収集したデータが削除されます。削除されないようにするためには、管理画面から「全般」のクローラの設定で「以前のドキュメントを削除」の値を-1日に設定してください。

クロール結果を永続的に検索対象として残す場合には上記、設定変更が必要。

特定の拡張子のみをクロール

PDF ファイルのみを対象にクロールさせる場合は以下を追加する。

項目 設定値
検索対象とするパス .*\.pdf$

全文検索の実施

http://localhost:8080/
Fess 検索画面より検索を行い、インデックスの正常性を確認する。

ファイル名検索
search07.png
ファイル名(拡張子)検索
search06.png
文書内検索
search08.png

インデックスの削除

システム情報 > 検索

フォームに url:"file:/C:/fess-search/*" のように入力して検索を実施するとクロールの蓄積情報が表示される。
適宜、削除を行うことで全文検索にヒットしなくなる。
search09.png

8
9
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
9