ただのメモです。DL時サイトに迷惑がかからないように絶対にwaitを入れましょう。
説明用に簡単にコメントを入れてあります。
wget -w 3 --random-wait \ DL-wait 絶対必須
-e robots=off \ -e robots=off
-t 2 \ リトライ回数の上限を指定 (0 は無制限).
-nc \ 存在しているファイルをダウンロードで上書きしない
-c \ 部分的にダウンロードしたファイルの続きから始める
--show-progress \ どのモードでも進捗バーを表示する
-T 2 \ 全てのタイムアウトを SECONDS 秒に設定す
--http-user=USER \ http ユーザ名として USER を使う
--http-password=PASS \ http パスワードとして PASS を使う
-E \ HTML/CSS 文書は適切な拡張子で保存する
-r \ 再帰ダウンロードを行う
-l 2 \ 再帰時の階層の最大の深さを NUMBER に設定する (0 で無制限)
-k \ HTML や CSS 中のリンクをローカルを指すように変更する
-K \ リンク変換前のファイルを .orig として保存する
-p \ HTML を表示するのに必要な全ての画像等も取得する
-D \ ダウンロードするドメインをコンマ区切りで指定する
-H \ 再帰中に別のホストもダウンロード対象にする
WEB-URL
-w 3 --random-wait
これは絶対に必須です。大量のアクセスはサーバに迷惑をかけてしまうので
-k,-K このオプションはお好みで使用してください。-Kオプションで.origにした元ファイルと変更後ファイルの入れ替え方法はわかりません。なので-Kはいらないかも。
下記は私が実際に使用しているときのコマンドです。BASIC認証ありの場合こうしてます。
wget -w 3 --random-wait -e robots=off -t 2 -nc -c --show-progress -T 5 --http-user=USER --http-password=PASS [URL] -E -r -l 0 -p -k -H -D ドメイン1,ドメイン2
オレオレ認証しているサーバの場合は
--no-check-certificate
このオプションをつけてくれと表示されました。適宜付け足してください。
no-follow 属性に関しては回避方法がよくわかりません。
robots=offでは意味がないようです。html内リンクにno-follow 属性がある場合はDLできませんでした。