#概要
URLを元にサイト情報を構築しているファイルを取得する
#コマンド
#基本的にその場にダウンロードするのでまず任意のディレクトリへ移動
cd <ディレクトリ>
#サイト情報ファイルを丸ごとダウンロード
#wget -rpkK –random-wait URL
wget -rpkK –random-wait https://www.xxxxx.co.jp/index.html
#指定のファイル単体をダウンロード
wget URL
wget -np URL/test.png
#png画像のみダウンロード
wget -A .png https://www.xxxxx.co.jp/index.html
#FTPサーバーからファイルダウンロード(リトライ回数:3)
wget -t 3 ftp://ftp.xxxxxx.co.jp/hoge.txt
#robots.txtを無視する
wget -e robots=off
#オプション抜粋
引数(略式表記) | 引数 | 内容 |
---|---|---|
-r | --recursive | 再帰的に取得する。ただし、robots.txtで拒否されている場合は、指定したページだけしか取得できない。 |
-p | --page-requisites | ページの表示に必要な画像やcssなどを合わせてダウンロードする。 |
-k | --convert-links | ダウンロードしたhtmlファイルからのリンクや画像のパスをうまく表示できるように変換する |
-K | --backup-converted | .origをつけて変換前のファイルを残す |
-E | --adjust-extension | mod_rewriteされてたりクエリーストリングによってコンテンツが変わるサイトの場合、.htmlをつけて保存する。古いバージョンのwgetでは--html-extentionだったらしい。 |
-N | --timestamping | ローカルに同名のファイルがあって、ファイルサイズが同じ場合に、更新日時を比較してリモートのほうが新しければダウンロードする。 |
#参考
Macにwgetコマンドが無かったのでMacPortsで入れた - kanonjiの日記
wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・!
wgetの使い方いろいろ
wgetでサイト全体をまるごとダウンロードする(認証後ページも)