LoginSignup
1
0

More than 3 years have passed since last update.

そのページ、ちゃんと魚拓できてませんよ?

Last updated at Posted at 2020-09-26

NAVERまとめ終了まで、1週間を切り、残り数日となりましたね。

保存し忘れているページがないか心当たりはありませんか?

保存し損ねて後悔しないようにしておきたいものですね。

さて、

そもそも魚拓とは

ウェブページを保存収集して後々でも当時のページを見られるようにしておく「ウェブアーカイブ」の事である。

日本ではウェブ魚拓がウェブアーカイブのサービスとしてメジャー。

日本以外ではインターネットアーカイブが大手(非営利)。


ここではインターネットアーカイブでウェブアーカイブしている方がページ保存の際などに見落としがちな事をだらだら書いていく。

ページ内の画像が保存されてないの見落としがち

かつてあったサイトを見ようとインターネットアーカイブで見た時に、肝心の画像が表示されないということはないだろうか。

保存するページサイト側により画像が保存されないようになっていることもあるが、大抵の個人サイトは保存可能で、

ページ保存時、保存完了中までに切断されると、画像などが保存されていない要因の一つだったりする。

  • 例としてURL直打ちでインターネットアーカイブでページを保存する場合

    • このように保存し始まり
      20200501T105649+0900_user_USER-PC_001.png
    • 「Saving page now...」中にブラウザを閉じたりしてしまうと、まだ読み込まれてない画像が保存されてない可能性がある。
      20200501T105649+0900_user_USER-PC_002.png
    • 「Loading Saved Page...」で保存が完了され、保存されたアーカイブページに移動される。
      20200501T105650+0900_user_USER-PC_001.png

スクリプトを書いたりして自動でインターネットアーカイブに保存している人でありがちなのは、

https://web.archive.org/save/~~というURLでGETリクエストを送っただけだと、ページ内の画像が保存されなかった覚えがある。


  • ページ内の画像が保存されていないと

    • 過去のアーカイブを見た時に一見画像も表示されインターネットアーカイブに既に保存されてあるように見える
      20200501T105651+0900_user_USER-PC_001.png
    • 画像だけを表示してみると…
      20200501T105651+0900_user_USER-PC_002.png
    • アドレスバーを見るとweb.archive.org/save/_embed/となっている。
      20200501T105651+0900_user_USER-PC_003.png

当時誰かによってページが保存された時にページ内に存在している画像が当時から保存されてない場合は、いつか誰かによって閲覧される機会があった時に画像がオリジナルの所から取得され(元が消えてなかったら)保存されるようだ。

ブログのページ保存では原寸大画像が保存されていない

ココログ(@nifty)やFC2ブログなどのブログでは、記事内の画像はサムネイル・プレビュー用に加工されてある画像で、サムネイルのリンク先に元画像があるので、元画像を保存し損ねやすいかと。

画像の保存は必須か?

しかし、最低限のテキスト文章だけが保存されてあれば気にしないという方もいるかもしれない。

画像があることで理解の補助となるのであれば無いよりあった方がマシで、画像の消失はもったいないと思わないだろうか?

ページの画像などが見れないだけでそのページの価値や魅力が半減してしまうのである。


記事の1ページ目だけ保存されがち

週刊誌系などのニュースサイトで、何ページにまたがっている記事の2ページ目以降が保存されていないことをよく目しがちで、

NAVERまとめやTogetterも同じく、1ページ目だけ保存されまくっている割には2ページ目以降が保存されていなかったりする。

動的に生成されるページ

JavaScriptでページが動的に生成されるようなサイトを保存する場合は、保存されたアーカイブを見るとスクリプトが正しく動かず表示されない、または動いてもページ内の画像などのコンテンツは閲覧時に読み込んだ時に初めて保存されることを知らないと見落とすかと。

Twitter

現在ではブラウザでツイートをインターネットアーカイブに保存して、その保存されたアーカイブを見ると、ツイートの読み込みにエラーが起きてしまう。

User agentをGooglebotであるように偽装してTwitterにアクセスすると、旧インターフェースのTwitterになる。

例えば、ブラウザでそのようにUser agentを偽装してhttps://web.archive.org/save/https://twitter.com/{ユーザーID}をアドレスバーに入力してアクセスするとページを問題無く保存することができる。

Twitterの原画像

画像も添付されたツイートで、画像URLの拡張子のあとに:orig&name=orig付けるとリサイズされてない原寸大画像がある。


まあこんな具合に他にも気付いた事があれば加筆していきたいと思う。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0