More than 5 years have passed since last update.

wgetコマンド

Last updated at 2018-09-26Posted at 2018-07-24

概要

URLを元にサイト情報を構築しているファイルを取得する

コマンド

# 基本的にその場にダウンロードするのでまず任意のディレクトリへ移動
cd <ディレクトリ>

# サイト情報ファイルを丸ごとダウンロード
# wget -rpkK –random-wait URL
wget -rpkK –random-wait https://www.xxxxx.co.jp/index.html 

# 指定のファイル単体をダウンロード
wget URL
wget -np URL/test.png

# png画像のみダウンロード
wget -A .png https://www.xxxxx.co.jp/index.html 

# FTPサーバーからファイルダウンロード（リトライ回数：3）
wget -t 3 ftp://ftp.xxxxxx.co.jp/hoge.txt

# robots.txtを無視する
wget -e robots=off

オプション抜粋

引数（略式表記）	引数	内容
-r	--recursive	再帰的に取得する。ただし、robots.txtで拒否されている場合は、指定したページだけしか取得できない。
-p	--page-requisites	ページの表示に必要な画像やcssなどを合わせてダウンロードする。
-k	--convert-links	ダウンロードしたhtmlファイルからのリンクや画像のパスをうまく表示できるように変換する
-K	--backup-converted	.origをつけて変換前のファイルを残す
-E	--adjust-extension	mod_rewriteされてたりクエリーストリングによってコンテンツが変わるサイトの場合、.htmlをつけて保存する。古いバージョンのwgetでは--html-extentionだったらしい。
-N	--timestamping	ローカルに同名のファイルがあって、ファイルサイズが同じ場合に、更新日時を比較してリモートのほうが新しければダウンロードする。

参考

Macにwgetコマンドが無かったのでMacPortsで入れた - kanonjiの日記
 wgetが超絶便利なwebクローラー、クローリングツールだとは知らなかった・・・！
wgetの使い方いろいろ
 wgetでサイト全体をまるごとダウンロードする(認証後ページも)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up