はじめに
robots.txt
に従わない Archive.today のブロックに必要なIPアドレスの一覧
個人サイトのアクセスログが元データ
編集リクエスト・情報提供は大歓迎
Why does archive.is not obey robots.txt?
Because it is not a free-walking crawler, it saves only one page acting as a direct agent of the human user. Such services don't obey robots.txt (e.g. Google Feedfetcher, screenshot- or pdf-making services, isup.me, …)
IPアドレス一覧。ただし...
確認できたのは次のとおり。ただし
173.254.241.162
188.143.233.210
213.174.145.218
45.135.229.10
47.90.253.149
Tor経由のリクエスト
結構数があったのでGitHubで公開と思ったのですが、IPアドレスでググるとTorのIPアドレスが結構含まれていました。
※上のリストは Tor 以外のIPアドレス(たぶん)
どうやら自前サーバでエラーになると、Tor経由でアクセスを試みるようです。
というわけで Archive.today をブロックしたければ、TorのIPアドレスもブロックが必要です。
Tor のIPアドレス一覧
https://check.torproject.org/exit-addresses