環境
- Windows10 Pro 64bit 又は Windows Server 2016
- Fess 13.9.3
- Elasticsearch 7.9.3
現象
- データストアクロール対象ディレクトリに CSV ファイルが存在しているが「CSV ファイル無し」と扱われる
- 過去のインデックスが削除される
- 再度、クロールを実行すると正常に読み込まれる
クロールログ(1回目)
2021-02-03 11:35:51,643 [20210203113538-1] INFO directories=C:/fess_crawl_list
2021-02-03 11:35:51,652 [20210203113538-1] WARN No CSV file.
2021-02-03 11:35:51,842 [20210203113538-1] INFO Deleted 7 old docs.
2021-02-03 11:35:56,612 [DataStoreCrawler] INFO [EXEC TIME] crawling time: 5055ms
クロールログ(2回目)
2021-02-03 11:38:22,851 [20210203113809-1] INFO directories=C:/fess_crawl_list
2021-02-03 11:38:22,887 [20210203113809-1] INFO Loading C:\fess_crawl_list\data_store.csv
2021-02-03 11:38:24,080 [20210203113809-1] INFO Sent 2 docs (Doc:{process 78ms, send 232ms, size 8KB}, Mem:{used 152MB, heap 406MB, max 512MB})
2021-02-03 11:38:24,521 [20210203113809-1] INFO Deleted 0 old docs.
2021-02-03 11:38:27,731 [DataStoreCrawler] INFO [EXEC TIME] crawling time: 5010ms
結論
Fess の公式フォーラム CodeLibs で質問したところ運営の Shinsuke Sugaya さんが回答してくださった。
https://discuss.codelibs.org/t/no-csv-file/1456
- データストアクロール対象ディレクトリに CSV ファイルが存在しているが「CSV ファイル無し」と扱われる
- 再度、クロールを実行すると正常に読み込まれる
- 仕様(ファイルのタイムスタンプが 1分以上経過しないと対象とならない)
自身が検証していた際、CSV 作成後に間髪を入れずクロールを実行させていたことが原因であった。
- 過去のインデックスが削除される
- 仕様(データストアクロール設定のパラメーターに
delete_old_docs=false
を追記することで削除処理をオフにできる)
- 仕様(データストアクロール設定のパラメーターに