More than 3 years have passed since last update.

PythonでWebスクレイピング①(スクレイピング事前知識)

Last updated at 2021-01-01Posted at 2020-12-15

1.背景

本記事は前回のSQLiteに引き続いて、pythonを投資活用に使う目的で調べたまとめ記事の第2弾です。
全2回にわたってスクレイピングに関して調べた内容をシェアしていきます。
初回①としてはスクレイピングする前に知っておく内容を自分なりにまとめてみました。

<参考>前回記事(投資活用のための記事の第1弾)：
Pythonで簡単にデータベースを扱う(SQLite3)
　※本記事は前回とは全く関連はないので、読んでなくても読み進められます。

2.Webスクレイピングを知る上での基本用語

・スクレイピングとは？
Webサイトから必要な情報を抽出すること。

・クローリングとは？
リンクを辿ってWebページを収集すること。

・クローラーとは？
クローラーとは、インターネット上を巡回し、Webサイト・画像・動画などのデータを収集・保存するプログラムのこと。
例えばGoogleやBingなどのWeb検索エンジンは、予めクローラーを使って世界中のWebページを収集しているから高速に検索出来ているということである。

3.どんなWebページでもスクレイピングしてもいいのか？

Web ページは基本的に著作物
・Webサイトによっては「利用規約」や「ヘルプページ」等でクローリングを明確に禁止しているケースがある
・robots.txtやrobots metaタグで拒否されているページをクロールしないこと
・万が一許可されていたとしても、Webサーバーへの負担をかけないように配慮すること

・robot.txtとは何か？
robots.txtとは、クローラへアクセス制限などを伝えるために設置されるファイルのこと。
robot.txtは、rootページ(WebのTOPページ)のURLに「/robots.txt」を入れて確認できる。
　(Yahooの)rootページ：https://www.yahoo.co.jp/
　(Yahooの)robots.txt：https://www.yahoo.co.jp/robots.txt

・(robots) metaタグとは何か？
robots.txtと似た目的で使われ、HTMLファイルのヘッダ(head)部に書いてある「そのサイトの説明書きみたいなもの」

<参考>
Robots.txt の仕様
 robots【metaタグ】とは

4.robots.txtをパースする

・パースとは？
一定の書式や文法に従って記述されたデータを解析し、構文が文法にあっているかどうかを解析すること

・パーサーとは？
構造的な文字データを解析し、プログラムで扱えるようなデータ構造の集合体に変換するプログラム

pythonのライブラリにurllib.robotparserというものがあるが、使い勝手的にはreppyの方がいいと感じたのでここではそれを使う。
※ただし、Robots.txtが規則に沿って記載されていないケースはうまく読めないこともあるので、その時は直接URLに/robots.txtを付け加えて確認するか、別の手法で確認する必要がある

reppyのパーサーライブラリの使い方
(・pip install reppy でreppyをインストールしておく)
・fetch`命令にてuser-agentを指定し、でどのクローラーに対調べるか？を指定する。
・allowed命令でクロールしようとするURLを指定し、アクセス可能か？を確認する
・Crawl-delay（サイトが指定したクロール間隔)を確認する。※これが規定されている場合はこれに従う必要がある

下記では1例としてMSNのホームページを取り上げる

from reppy.robots import Robots

# fetchでmsnのrobots.txtを読み込む
robots = Robots.fetch('https://www.msn.com/robots.txt')
# 確認対象をワイルドカード('*')で指定する ※つまり全クローラーが対象ということ
agent = robots.agent('*')

# それぞれ指定したURLに対してallowedを使用してrobots.txtがアクセス可能か？を確認する
print(agent.allowed('https://www.msn.com/ja-jp/news'))
print(agent.allowed('https://www.msn.com/ja-jp/health/search/filter'))

実行結果

True
False

1サイト目はOK、2サイト目はNGとなっていることが確認できる。

引き続き、サイトが指定したクロール間隔があるケースを紹介する。
例としてクラウドワークスのホームページを取り上げる。

from reppy.robots import Robots

# fetchでクラウドワークスのrobots.txtを読み込む
robots = Robots.fetch('https://crowdworks.jp/robots.txt')

# 確認対象をbingbot(Bing)で指定し、delayで確認する ※bingbot≒マイクロソフトの検索クローラ－
agent = robots.agent("bingbot")
print(agent.delay)

# 比較対象としてワイルドカードも確認してみる
agent = robots.agent("*")
print(agent.delay)

実行結果

10.0
None

Bingのクローラーには10秒のクロール間隔を空けるように書いていることがわかる。

5. robotsのmetaタグを確認する

HTMLタグやHTTPヘッダーによるアクセス制限も確認しておく。
サイトページのmetaタグやaタグにnoindex、nofollow等の記載があれば、そのサイトのインデックス化やリンクをたどることが禁止されている

<参考>
メタタグの記述と検索エンジン

BeautifulSoup4を使用してmetaタグを確認したいURLを指定する
※pip install beautifulsoup4 でライブラリのインストールが必要。

import requests 
from bs4 import BeautifulSoup

# request.get()で指定されたwebの情報を取得
url = requests.get("https://www.yahoo.co.jp/")

# BeautifulSoupオブジェクトを生成する(textで取得したHTMLを文字化し、html.parserで解析する)
soup = BeautifulSoup(url.text, "html.parser")
# soup = BeautifulSoup(url.content, "html.parser")

# findで一番最初に一致するタグ<meta>を取得し、attrsにname属性の属性値robotsを渡す
robots = soup.find("meta", attrs={'name': 'robots'})

print(robots)

実行結果

<meta content="noodp" name="robots"/>

どうやらyahooにはnoodp(NO Open Directory Procject)というMetaタグが設定されているようである。

6.色々な投資サイトがどうなっているか？を見てみた。

参考までに投資のスクレイピングでよく話題に上がっているサイトを紹介した手法で調べてみた。
各HPに対するスクレイピングのOK/NGに関する結論は本記事で言及/記載しない。
調べていて感じたのは、基本的にファイナンス系はNGが多そうということ。
別途APIがあったりするケースもあるのでそれを使うのも手かも。。。

例①：株式投資メモ
https://kabuoji3.com/
・robots.txt： Allow:/ ※ルートディレクトリ以下すべて許可する
・metaタグ：記載なし
・ホームページ規約 : 記載なし

※このサイトのrobots.txtはreppyではうまく取得できなかった。おそらくAllow:/ の:と/の間にスペースがないためだと考えている。別の手段でも取得できるが、今回は割愛する。

例②：株探
https://kabutan.jp/
・robots.txt： Disallow: /94446337/※94449667ディレクトリ以下は許可しない
・metaタグ：記載なし
・ホームページ規約 : 不当な負荷をかけるのは禁止(下記参照)

第４条（禁止事項）
１．運営者は、利用者が以下に該当する、あるいはその恐れのある行為を行うことを禁止します。
:
(7)本サイトのサーバーに不当な負担をかける行為や本サービスの運営を妨げる行為。

株探利用規約

例③：四季報オンライン
https://shikiho.jp/
・robots.txt：記載なし
・metaタグ：記載なし
・ホームページ規約 : 禁止(下記参照)

第13条（利用者のその他の禁止行為）

利用者は、本規約の他の条項において禁止される行為の他、本サービスにおいて以下の行為をしてはならないものとします。
:
(10) 本サービスで提供された情報を、コンピューター等を利用して自動取得する行為

四季報オンライン規約

例④：Yahoo! ファイナンス
https://finance.yahoo.co.jp/
・robots.txt：記載なし
・metaタグ：記載なし
・ホームページ規約 : ネットワークの機能を破壊したり、妨害したりする行為は禁止（下記参照）
　※ただしYahoo!ファイナンスヘルプを確認すると禁止と記載されている

●規約
7.サービス利用にあたっての順守事項
当社のサービスのご利用に際しては以下に定める行為（それらを誘発する行為や準備行為も含みます）を禁止いたします。
:
4.当社のサーバーまたはネットワークの機能を破壊したり、妨害したりする行為

●Yahoo!ファイナンスヘルプ
Yahoo!ファイナンス掲載情報の自動取得（スクレイピング）は禁止しています。

Yahoo!ファイナンス規約
 Yahoo!ファイナンスヘルプ

7.負荷にならない為にどうすればいいのか？

規定は決まっていないと思われる。あくまで相手のサービスの負荷にならないように・・とのことらしいが、今はCrawl-delayで指定されていない場合は1秒に1回という目安が認知されている気がする。(岡崎市立中央図書館事件で広まった？)

<参考>
2010年岡崎市立中央図書館事件のwiki
国立国会図書館法によるインターネット資料の収集について(資料)

8.最後に

個人的な備忘録兼ねてる為、初心者には難しめの記事になってしまったかもですが重要なのでまとめました。
まとめてみてこの問題にはグレーな部分も多く、ハッキリNGと記載していない場合の明確な規定はないと思いました。
とにかく相手のサーバー運営に迷惑がかかったらNGなので、よくわからなければ諦めるのも肝心ですね。

また、クローラで収集したデータの利用方法によって問題が発生することがあることも考慮する必要がありそうです(別問題として)

具体的なスクレイピングの記事は次回。

<その他参考ページ>
robots.txt ファイルを作成する
 Webスクレイピングする際のルールとPythonによる規約の読み込み
 スクレイピング、クローリングする時の注意点
 Webスクレイピングの注意事項一覧
 PythonでWebスクレイピングする時の知見

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up