12
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

wgetコマンド

Last updated at Posted at 2018-07-24

#概要
URLを元にサイト情報を構築しているファイルを取得する

#コマンド

#基本的にその場にダウンロードするのでまず任意のディレクトリへ移動
cd <ディレクトリ>

#サイト情報ファイルを丸ごとダウンロード
#wget -rpkK –random-wait URL
wget -rpkK –random-wait https://www.xxxxx.co.jp/index.html 

#指定のファイル単体をダウンロード
wget URL
wget -np URL/test.png

#png画像のみダウンロード
wget -A .png https://www.xxxxx.co.jp/index.html 

#FTPサーバーからファイルダウンロード(リトライ回数:3)
wget -t 3 ftp://ftp.xxxxxx.co.jp/hoge.txt

#robots.txtを無視する
wget -e robots=off

#オプション抜粋

 引数(略式表記)  引数 内容
-r --recursive 再帰的に取得する。ただし、robots.txtで拒否されている場合は、指定したページだけしか取得できない。
-p --page-requisites ページの表示に必要な画像やcssなどを合わせてダウンロードする。
-k --convert-links ダウンロードしたhtmlファイルからのリンクや画像のパスをうまく表示できるように変換する
-K --backup-converted .origをつけて変換前のファイルを残す
-E --adjust-extension mod_rewriteされてたりクエリーストリングによってコンテンツが変わるサイトの場合、.htmlをつけて保存する。古いバージョンのwgetでは--html-extentionだったらしい。
-N --timestamping ローカルに同名のファイルがあって、ファイルサイズが同じ場合に、更新日時を比較してリモートのほうが新しければダウンロードする。

#参考

Macにwgetコマンドが無かったのでMacPortsで入れた - kanonjiの日記
wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・!
wgetの使い方いろいろ
wgetでサイト全体をまるごとダウンロードする(認証後ページも)

12
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
10

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?