More than 5 years have passed since last update.

そのページ、ちゃんと魚拓できてませんよ？

Last updated at 2021-04-03Posted at 2020-09-26

NAVERまとめ終了~~まで、1週間を切り、残り数日~~となりましたね。

保存し忘れているページがないか心当たりはありませんか？

保存し損ねて後悔しないようにしておきたいものですね。

さて、

そもそも魚拓とは

ウェブページを保存収集して後々でも当時のページを見られるようにしておく「ウェブアーカイブ」の事である。

日本ではウェブ魚拓がウェブアーカイブのサービスとしてメジャー。

日本以外ではインターネットアーカイブが大手(非営利)。

ここではインターネットアーカイブでウェブアーカイブしている方がページ保存の際などに見落としがちな事をだらだら書いていく。

かつてあったサイトを見ようとインターネットアーカイブで見た時に、肝心の画像が表示されないということはないだろうか。

保存するページサイト側により画像が保存されないようになっていることもあるが、大抵の個人サイトは保存可能で、

ページ保存時、保存完了中までに切断されると、画像などが保存されていない要因の一つだったりする。

例としてURL直打ちでインターネットアーカイブでページを保存する場合
- このように保存し始まり
- 「Saving page now...」中にブラウザを閉じたりしてしまうと、まだ読み込まれてない画像が保存されてない可能性がある。
- 「Loading Saved Page...」で保存が完了され、保存されたアーカイブページに移動される。

スクリプトを書いたりして自動でインターネットアーカイブに保存している人でありがちなのは、

https://web.archive.org/save/～～というURLでGETリクエストを送っただけだと、ページ内の画像が保存されなかった覚えがある。

ページ内の画像が保存されていないと
- 過去のアーカイブを見た時に一見画像も表示されインターネットアーカイブに既に保存されてあるように見える
- 画像だけを表示してみると…
- アドレスバーを見るとweb.archive.org/save/_embed/となっている。

当時誰かによってページが保存された時にページ内に存在している画像が当時から保存されてない場合は、いつか誰かによって閲覧される機会があった時に画像がオリジナルの所から取得され(元が消えてなかったら)保存されるようだ。

ココログ(@nifty)やFC2ブログなどのブログでは、記事内の画像はサムネイル・プレビュー用に加工されてある画像で、サムネイルのリンク先に元画像があるので、元画像を保存し損ねやすいかと。

しかし、最低限のテキスト文章だけが保存されてあれば気にしないという方もいるかもしれない。

画像があることで理解の補助となるのであれば無いよりあった方がマシで、画像の消失はもったいないと思わないだろうか？

ページの画像などが見れないだけでそのページの価値や魅力が半減してしまうのである。

週刊誌系などのニュースサイトで、何ページにまたがっている記事の2ページ目以降が保存されていないことをよく目しがちで、

NAVERまとめやTogetterも同じく、1ページ目だけ保存されまくっている割には2ページ目以降が保存されていなかったりする。

JavaScriptでページが動的に生成されるようなサイトを保存する場合は、保存されたアーカイブを見るとスクリプトが正しく動かず表示されない、または動いてもページ内の画像などのコンテンツは閲覧時に読み込んだ時に初めて保存されることを知らないと見落とすかと。

現在ではブラウザでツイートをインターネットアーカイブに保存して、その保存されたアーカイブを見ると、ツイートの読み込みにエラーが起きてしまう。

User agentをGooglebotであるように偽装してTwitterにアクセスすると、旧インターフェースのTwitterになる。

例えば、ブラウザでそのようにUser agentを偽装してhttps://web.archive.org/save/https://twitter.com/{ユーザーID}をアドレスバーに入力してアクセスするとページを問題無く保存することができる。

画像も添付されたツイートで、画像URLの拡張子のあとに:origや&name=orig付けるとリサイズされてない原寸大画像がある。

まあこんな具合に他にも気付いた事があれば加筆していきたいと思う。