17
17

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Webクローラ「Heritrix」を使ってみる

Last updated at Posted at 2014-12-29

はじめに

仕事で「 Heritrix 」という OSS の Web クローラを使ってみようということになったので、
使えるようになるまで、ちょっと試行錯誤した足あとでも残してみようと思う。

なんか、日本語の情報全然ないから、ちょっとでも誰かの役に立つと嬉しい。

Heritrix について

ちなみに、なんか情報ないか探していたら
Heritrix を使っているらしき、国立国会図書館の概要説明がわかりやすそうだった。

Heritrix のインストール

まず、公式ドキュメントに沿ってインストール等々やってみる。

downloads には 3.2.0 が最新とあったんで、これを持ってこようと思うんだけど、
ドキュメントは 3.1 までしかないということなんだろうか。まぁいいや。これで進めよう。

Linux(Fedora)環境で作成する。

Heritrix のダウンロード

Heritrix Installation」を参照。

たいした説明じゃなかったので、とりあえず、適当な場所にダウンロードと解凍してみた。

$ wget http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/heritrix-3.2.0-dist.tar.gz

$ tar pxvf heritrix-3.2.0-dist.tar.gz 

Heritrix の設定

Heritrix Configuration」 のページに沿って、各種設定をする。

  • JAVA_HOME の設定

JRE 1.6 と書いてあるけど、今の環境が JDK 1.7 だから、一旦そのままでやってみようと思う。
だめなら 1.6 に設定し直してみる。

  • HERITRIX_HOME の設定

解凍した場所を設定する。私はこんな感じで。

export HERITRIX_HOME=/home/user/heritrix/heritrix-3.2.0
  • 起動ファイルに実行権限を与える

起動ファイルに実行権限を与えましょう。
ちなみに私は tar.gz をダウンロードして、権限維持の解凍したから不要(既に実行権限あり)でした。

$ chmod u+x $HERITRIX_HOME/bin/heritrix
  • メモリ割り当ての設定

メモリ割り当てサイズのオプションを設定。

export JAVA_OPTS=-Xmx1024M

これでいけるはず。

Heritrix の実行

ついに実行だ!
「[Running Heritrix 3.0 and 3.1] (https://webarchive.jira.com/wiki/display/Heritrix/Running+Heritrix+3.0+and+3.1)」のページを参照。

各種コマンドの説明があるけど、英語読むのがだるいので、
ひとまず、Web UI があるっちゅーんで、試してみる。

以下のコマンドを打てば良いらしい。

$ $HERITRIX_HOME/bin/heritrix -a admin:admin
2014年 12月 29日 月曜日 15:20:08 JST Heritrix starting (pid 4464)..
~
一部省略 
~
engine listening at port 8443
operator login set per command-line
NOTE: We recommend a longer, stronger password, especially if your web 
interface will be internet-accessible.

起動したぽいので、ブラウザで確認してみる!

https://localhost:8443/engine

おー見えた見えた。

000000.JPG

000001.JPG

ここから色々指定できるっぽいな~。

全然わからんw1つずつ調べていくしかないなぁ。

Heritrix の Web UI を使う

job の作成

「[A Quick Guide to Running Your First Crawl Job] (https://webarchive.jira.com/wiki/display/Heritrix/A+Quick+Guide+to+Running+Your+First+Crawl+Job)」のページを参考に、 job を作成してみようかね。

上記ページ、キャプチャも貼って手順説明されているのでわかりやすいんだけど、
バージョンが違うからか、全然 UI が違ってて・・・その辺は探りながらやってみよう。

1. job ディレクトリを追加

ほい。

000002.JPG

できた。

000003.JPG

test をぽちっとな。

2. job ページを開く

ほい。

000004.JPG

3. 設定ファイルを開く(編集モード)

これ、ちょっと UI が違うから、探した。
上部タブバーの Configuration 押したら、設定ファイルの編集モードに入った。

000005.JPG

4. 設定ファイルを編集する

今度は、何をどう編集したらいいのやら・・・
ここは別記事で書き起こさないと無理かもしれない。。。
Spring の設定ファイルだから、ちょっと Spring のお作法を勉強しないとダメですかねぇ。

java のファミリーにしては、えらく可愛いのね、 Spring って。
葉っぱかぁ・・・春の芽吹きってことかね?

今日はこんなとこで。

以上

17
17
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
17

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?