More than 3 years have passed since last update.

Webサイトをクロールしてtitleやdescription、h1タグを収集してCSV(or Excel)で管理する方法

Last updated at 2021-06-28Posted at 2021-06-28

Webサイトをクロール（スクレイピング）してtitleやdescription、h1タグを収集してExcel(or CSV)にまとめる方法を調べたので記事として残します。

Webサービスのコンテンツやページが増えてくるとページ１つ１つのtitleタグやmetaタグのdescriptionをチェックするのが困難になります。
例えば、バグで、あるページのh1タグが出力されなくなっていても気付くことが難しくなります。
本記事の手順でCSVを出力しバージョン管理しておくことで、SEOテキストに関係する処理を修正した後に差分を確認し、デグレや意図しない変更が発生していないかをチェックできるようになります。

Site Audit SEO を使用します

site-audit-seoというNode製のツールでWebサービスをクロールして各種SEOテキストを収集する事ができます。

インストール方法は上記リポジトリのREADMEをご参照ください。（npmが必要です）

クロールを行います

以下のコマンドでクロールを行います。
ここでは、ipaのページを最大10ページまでクロールしています。

site-audit-seo -m 10 -p parse --xlsx --out-dir . --out-name seo-texts -u https://www.ipa.go.jp/ \
    -f 'robots=$("meta[name=robots]").attr("content")' \
    -f 'canonical=$("link[rel=canonical]").attr("href")' \
    -f 'twitter_title=$("meta[name=\"twitter:title\"]").attr("content")' \
    -f 'twitter_description=$("meta[name=\"twitter:description\"]").attr("content")' \
    -f 'twitter_image=$("meta[name=\"twitter:image\"]").attr("content")' \
    -f 'og_title=$("meta[property=\"og:title\"]").attr("content")' \
    -f 'og_description=$("meta[property=\"og:description\"]").attr("content")' \
    -f 'og_image=$("meta[property=\"og:image\"]").attr("content")'

各オプションについて

オプション	説明
-m 10	max-requestsの略で、ページをスキャンする回数を最大10回に制限しています
-p parse	presetの略で、収集するフィールドのセットを指定できます。parseの場合はurl, title, h1, description, keywordを収集します。
--xlsx	処理結果をxlsxで出力します
--out-dir .	処理結果を出力するフォルダを指定します。今回はカレントディレクトリを指定しています
--out-name seo-texts	出力結果のファイル名を指定します。今回はseo-texts.xlsxになります
-u <URL>	クロールの始点となるURLを指定します
-f '列名=処理'	追加で収集するフィールドを指定します。左辺に列名を指定し、右辺に値を収集する処理を指定します。処理はjQuery(?)が使えるようです