GASでスクレイピングをやってみる

Posted at 2022-11-07

ゴール

WEBページから http://schema.org のデータをスクレイピングで取得する

http://schema.org とは

ホームページに記載されている、説明をDeepLで翻訳すると。

Schema.org はインターネット、ウェブページ、電子メールメッセージ、その他の構造化データのためのスキーマを作成、維持、促進することを使命とする、共同的な、コミュニティ活動です。

Schema.orgの語彙は、RDFa、Microdata、JSON-LDを含む多くの異なるエンコーディングで使用することができます。これらの語彙はエンティティ、エンティティ間の関係、アクションをカバーし、十分に文書化された拡張モデルによって簡単に拡張することができます。1000万以上のサイトがSchema.orgを使用して、ウェブページや電子メールメッセージのマークアップを行っています。Google、Microsoft、Pinterest、Yandexなどの多くのアプリケーションがすでにこれらのボキャブラリーを使用しており、リッチで拡張性の高い体験を実現しています。

Google、Microsoft、Yahoo、Yandexによって設立されたSchema.orgのボキャブラリーは、public-schemaorg@w3.org メーリングリストやGitHubを通じて、オープンなコミュニティプロセスによって開発されています。

ざっくりした理解だと、検索時に出てくる、ページ本文以外のQAや要約情報を設定することのできる、表現方法です。

この例だと、駐車場はありますか？ などは、ページのHTMLを見てみるとこんな感じで記載されています。

<script type="application/ld+json">
{"mainEntity":[
{"name":"駐車場はありますか？","acceptedAnswer":{"text":"駐車場は下記をご確認ください。<br>あり　1泊3千円（15:00〜翌11:00）15分毎200円加算。 バイク1台1泊500円","@type":"Answer"},"@type":"Question"},
{"name":"アクセス情報を教えてください。","acceptedAnswer":{"text":"交通アクセスは下記をご確認ください。<br>東京メトロ　西葛西駅より徒歩にて約１分","@type":"Answer"},"@type":"Question"},
{"name":"チェックイン時間・チェックアウト時間を教えてください。","acceptedAnswer":{"text":"チェックイン15:00〜26:00、チェックアウト10:00となっております。<br>（宿泊プランによって異なる場合がございますので、詳細は各宿泊プランをご確認ください。）","@type":"Answer"},"@type":"Question"}],"@context":"https://schema.org","@type":"FAQPage"}
</script>

GASでスクレイピングする方法

ここから本題です。以下の３ステップで説明します。

Parserを読み込む
UrlFetchを利用してページを取得する
domをparseしてデータを抽出する

1. Parserを読み込む

こちらは、GASでスクレイピングするときに利用する王道のライブラリです。
https://script.google.com/home/projects/1Mc8BthYthXx6CoIz90-JiSzSafVnT6U3t0z_W3hLTAX5ek4w0G_EIrNw/edit

この中に記載されている処理をそのままGASに転記して利用することも可能ですし、ライブラリ読み込みして利用することも可能です。

今回は、ライブラリを読み込みしてみます。

スクリプトID
1Mc8BthYthXx6CoIz90-JiSzSafVnT6U3t0z_W3hLTAX5ek4w0G_EIrNw

GASを開いて、ライブラリ横にある＋から、上記のスクリプトIDで検索
登録が完了すると、Parserがライブラリに登場します。

2. UrlFetchを利用してページを取得する

UrlFetchApp.fetchを実行するだけで、ページ情報が取得できます。
めちゃくちゃ簡単です。

function myFunction() {
  const response = UrlFetchApp.fetch('https://travel.rakuten.co.jp/HOTEL/165001/165001.html')
  console.log(response.getContentText())
}

3. domをparseしてデータを抽出する

１、２で準備したものを使って、あとは type="application/ld+json を取得すれば完了です。

<script type="application/ld+json>が基本系なのですが、 scriptタグの中にサイトによっては、その他のプロパティがついていることがあるので、 type="application/ld+json"> だけで指定しています。

function myFunction() {
  const response = UrlFetchApp.fetch('https://travel.rakuten.co.jp/HOTEL/165001/165001.html')
  const perseData = Parser.data(response.getContentText()).from('type="application/ld+json">').to('</script>').iterate()
  console.log(JSON.stringify(perseData.map(e => JSON.parse(e))))
}

最後に

これをスプレッドシートと組み合わせると、まとめてサイトの情報を抽出することができます。
どこかで使えるかもなので、頭の片隅にこんなことできるんだなー情報を持っておくのが良さそうです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up