NAVERまとめ終了まで、1週間を切り、残り数日となりましたね。
保存し忘れているページがないか心当たりはありませんか?
保存し損ねて後悔しないようにしておきたいものですね。
さて、
そもそも魚拓とは
ウェブページを保存収集して後々でも当時のページを見られるようにしておく「ウェブアーカイブ」の事である。
日本ではウェブ魚拓がウェブアーカイブのサービスとしてメジャー。
日本以外ではインターネットアーカイブが大手(非営利)。
ここではインターネットアーカイブでウェブアーカイブしている方がページ保存の際などに見落としがちな事をだらだら書いていく。
ページ内の画像が保存されてないの見落としがち
かつてあったサイトを見ようとインターネットアーカイブで見た時に、肝心の画像が表示されないということはないだろうか。
保存するページサイト側により画像が保存されないようになっていることもあるが、大抵の個人サイトは保存可能で、
ページ保存時、保存完了中までに切断されると、画像などが保存されていない要因の一つだったりする。
- 例としてURL直打ちでインターネットアーカイブでページを保存する場合
スクリプトを書いたりして自動でインターネットアーカイブに保存している人でありがちなのは、
https://web.archive.org/save/~~
というURLでGETリクエストを送っただけだと、ページ内の画像が保存されなかった覚えがある。
- ページ内の画像が保存されていないと
当時誰かによってページが保存された時にページ内に存在している画像が当時から保存されてない場合は、いつか誰かによって閲覧される機会があった時に画像がオリジナルの所から取得され(元が消えてなかったら)保存されるようだ。
ブログのページ保存では原寸大画像が保存されていない
ココログ(@nifty)やFC2ブログなどのブログでは、記事内の画像はサムネイル・プレビュー用に加工されてある画像で、サムネイルのリンク先に元画像があるので、元画像を保存し損ねやすいかと。
画像の保存は必須か?
しかし、最低限のテキスト文章だけが保存されてあれば気にしないという方もいるかもしれない。
画像があることで理解の補助となるのであれば無いよりあった方がマシで、画像の消失はもったいないと思わないだろうか?
ページの画像などが見れないだけでそのページの価値や魅力が半減してしまうのである。
記事の1ページ目だけ保存されがち
週刊誌系などのニュースサイトで、何ページにまたがっている記事の2ページ目以降が保存されていないことをよく目しがちで、
NAVERまとめやTogetterも同じく、1ページ目だけ保存されまくっている割には2ページ目以降が保存されていなかったりする。
動的に生成されるページ
JavaScriptでページが動的に生成されるようなサイトを保存する場合は、保存されたアーカイブを見るとスクリプトが正しく動かず表示されない、または動いてもページ内の画像などのコンテンツは閲覧時に読み込んだ時に初めて保存されることを知らないと見落とすかと。
現在ではブラウザでツイートをインターネットアーカイブに保存して、その保存されたアーカイブを見ると、ツイートの読み込みにエラーが起きてしまう。
User agentをGooglebotであるように偽装してTwitterにアクセスすると、旧インターフェースのTwitterになる。
例えば、ブラウザでそのようにUser agentを偽装してhttps://web.archive.org/save/https://twitter.com/{ユーザーID}
をアドレスバーに入力してアクセスするとページを問題無く保存することができる。
Twitterの原画像
画像も添付されたツイートで、画像URLの拡張子のあとに:orig
や&name=orig
付けるとリサイズされてない原寸大画像がある。
まあこんな具合に他にも気付いた事があれば加筆していきたいと思う。