「Python2年生 スクレイピングのしくみ」という本で標準ライブラリーのrequest・BeautifulSoupを使ったWEBスクレイピングについて学習してます。今回はクローリング・スクレイピング時の倫理・法務上の注意点、request・BeautifulSoupライブラリーを使ったクローリングとスクレイピングについて紹介します。
WEBスクレイピング = ネット上の情報を自動で収集する方法
ネット上には様々な情報が公開されていて、Pythonを用いたWEBアプリケーションを使うとこうした情報を高速かつ自動で収集することができます。「データを集めること」自体をクローリング、「収集したデータを解析して必要なデータに加工すること」をスクレイピングと呼びます。
クローリング・スクレイピング時の倫理・法務上の注意点
クローリング・スクレイピングを利用したプロジェクトでは原著者の意思に反してスクレイピング・収集したデータの機械学習が行われたとして著作権・知的財産権をめぐる訴訟が提起されるなどの問題も発生しています。著名な例としては、アーティスト3名がStability AI・Midjourney・DeviantArt等の生成AIを利用しているサイトに対して提起した民事訴訟があります。
市民として他者の権利を尊重する・法律を守る以外にも、スクレイピング時は以下の職業倫理を守ることが必要です。
1、著作権・知的財産権、個人情報保護法を順守する
2、スクレイピングによる業務妨害(アクセス過多など)をしない
3、クローリング・スクレイピング禁止のサイトにはスクレイピングをしない
スクレイピング禁止のサイトには多くの場合ルートディレクトリにrobots.txtというファイル、もしくはHTMLのメタタグにスクレイピング禁止の意思表示が表明されています。
User-agent: *
Disallow: /
<meta name="robots" content="nofollow">
SSL証明書の発行
Pythonでスクレイピングするには、ネットワーク通信に利用するSSL証明書を発行する必要があります。 SSL証明書の作成に関してはこちらを参考にさせていただきました。
環境構築
必要なライブラリであるcertifi、requests、BeautifulSoupをpipコマンドで環境下にインストールします。
pip install certifi
pip install requests
pip install beautifulsoup4
requestライブラリーを使ったクローリング
https://www.ymori.com/books/python2nen/test1.html からHTMLファイルを読み込むプログラムはこのように記述します。
import requests
url = "https://www.ymori.com/books/python2nen/test1.html"
response = requests.get(url)
response.encoding = response.apparent_encoding
print(response.text)
BeautifulSoupを使ったスクレイピング
サイト内の要素を一括で取得する、画像を一括DLするなどデータ収集の手段としてスクレイピングを用いるプログラムの作成を目指します。まずはBeautifulSoupをpipコマンドでインストールします。
#BSをインストール
pip install beautifulsoup4
WEBページを取得して解析します。soupというインスタンスにデータが格納されるようにしています。
import requests
from bs4 import BeautifulSoup
#WEBページを取得して解析する。soupというインスタンスにデータが格納される
load_url = "https://www.ymori.com/books/python2nen/test1.html"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")
#HTML全体を表示する
print(soup)
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>Python2年生</title>
</head>
<body>
<h2>第1章 Pythonでデータをダウンロード</h2>
<ol>
<li>スクレイピングってなに?</li>
<li>Pythonをインストールしてみよう</li>
<li>requestsでアクセスしてみよう</li>
</ol>
</body>
</html>
要素をid・classで抽出できるようにします。soup.findメソッド
を使うとこのようにBeautifulSoupのインスタンスから必要なデータを引っ張り出すことができます。
#WEBページを取得
load_url = "https://www.ymori.com/books/python2nen/test2.html"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")
#IDで要素を検索し表示する
chap2 = soup.find(id = "chap2")
print(chap2)
<div id="chap2">
<h2>第2章 HTMLを解析しよう</h2>
<ol>
<li>HTMLを解析してみよう</li>
<li>ニュースの最新記事一覧を取得してみよう</li>
<li>リンク一覧をファイルに書き出そう</li>
<li>画像を一括ダウンロードしよう</li>
</ol>
</div>
#抽出した要素から、さらにすべてのliタグを表示する
for element in chap2.find_all("li"):
print(element)
<li>HTMLを解析してみよう</li>
<li>ニュースの最新記事一覧を取得してみよう</li>
<li>リンク一覧をファイルに書き出そう</li>
<li>画像を一括ダウンロードしよう</li>
画像ファイルのスクレイピング
img要素をすべて取得し、imgタグの絶対URLで画像データを取得・保存することで画像データのスクレイピングを行うことができます。これはresquestとBeautifulSoupのメソッドを組み合わせることで実装できます。
import requests
import urllib
import time
from bs4 import BeautifulSoup
from pathlib import Path
#画像保存用のフォルダーを作る
out_folder = Path("download")
out_folder.mkdir(exist_ok = True)
#WEBページを取得して解析
load_url = "https://www.ymori.com/books/python2nen/test2.html"
html = requests.get(load_url)
soup = BeautifulSoup(html.content, "html.parser")
#img要素をすべて取得
for element in soup.find_all("img"):
src = element.get("src")
#絶対URLで画像データを取得
image_url = urllib.parse.urljoin(load_url, src)
imgdata = requests.get(image_url)
#保存フォルダ名を取得する
filename = image_url.split("/")[-1]
out_path = out_folder.joinpath(filename)
#画像データをファイルに書き出す
with open(out_path, mode="wb") as f:
f.write(imgdata.content)
#連続アクセスを避ける
time.sleep(1)