#サイトのページ数を調べる
ページ数が少ないサイトだったら
人力で調査することも可能でしょうが、
数十を超えたあたりからもうめんどくさい。
##クローラを使う
e-word先生から転載。
クローラ 【 crawler 】
クローラとは、全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるWebページを回収するプログラム。
ページ内のリンクを辿って、他のページに行って
さらに、そのページのリンクから別のページへ行って・・・
**って繰り返してくれるソフトです。**たぶん。おそらく。
サイトマップを作るとか、孤立してるページを見つけるとか出来るらしい。
スパイダー 【 spider 】 とも呼ぶらしいです。
どうも、厳密にはクローラとスパイダーは別物らしい。
詳しくは、おまけで。
今回、使用したクローラ
-
Website Explorer
-
WildShark SEO Spider
クローラでサイトの URL 一覧を生成して
そこからページ数を調べるという戦略。
##使用方法
ページ数を調べたいサイトのトップのURLを入力するだけ。以上。
二つのソフトをあげた理由としては
-
Website Explorer は日本語でわかりやすく、設定も豊富そう
-
WildShark SEO Spider はフィルタに正規表現を使用できるので、うまく使えれば便利そう
という完全なる主観。
どちらも URL 一覧を Excel に出力できるので
出力してから整理すればいいのかもしれない。
##おまけ クローラとスパイダーの違い
検索エンジンの5つのプログラム - スパイダーとクローラって別物?
http://www.seojuku.info/seoblog/searchengine/20070111095317.html
によれば
クローラ : ページのリンクを追跡
スパイダー : ウェブページをダウンロード
とのことです。
そもそも、クロールという単語は 「這い回る」「ハイハイする」などの意味らしいです。
なので、
クローラ → ハイハイして、ページをたどっていくソフト
スパイダー → たどって行って、絡め取って持って帰ってくるソフト
っていうイメージなのかな。
なるほど、わからん。