導入
学校のIoT実習で学んだことを生かし、いろいろ便利なものを作ってみたいと思ったのだが、調べていくうちに、スクレイピングということをすると、Webサイトから簡単に情報が集められるということを知った。
しかし、サイトによってはこれが許可されていないなどの事もあるようで、今回はスクレイピングとは何か、注意点は何かについて調べたことをまとめていく。
スクレイピングとは?
スクレイピングとは、Webサイトから情報(データ)を取得し、その中から、自分が必要とするデータを抽出することである。(特にこれをWebスクレイピングという)
スクレイピングは手作業ではかなり大変であるが、これをプログラムで自動化すると、例えば、サイト上にある株価などの統計情報を自動で取得し、競合分析などのデータ解析に用いたり、機械学習に必要になるような膨大なデータを自動で集めたりなど、Webサイト上にあるデータを簡単に扱うことができるようになる。
例えば電車の運行情報の中で、京阪線のものが欲しいとする。
Webサーバー側にリクエストを送信し、いくつかの路線に関するレスポンスのデータが返ってくるが、この複雑なデータの中から、スクレイピングを行うことで欲しいデータだけを抽出できる。
(※イメージです)

スクレイピングの注意点
一見すると便利なスクレイピングであるが、実際行うときは注意点がいくつかある。
逮捕や裁判沙汰になるようなケースもあるため、特に気を付けること。
相手側のサーバーに負荷を掛けない事
スクレイピングは相手のサーバーに入り込んで、データを取ってくるということです。つまり、短時間に何回もスクレイピングを行うと、相手側のサーバーに負荷を掛け、サーバーをダウンさせることにつながる。
スクレイピングが許可されているか確認すること
Webサイトによっては許可されていないことがある。どうやって確認すればいいのかは以下に示す。
確認方法
相手のWebサイトのルートディレクトリ(簡単に言えば.comとか.jpとかのドメイン名直下)にある、「robot.txt」及び「robots.txt」にアクセスして、許可情報を調べる。
例としてYahoo!乗換案内を使用する。
- ブラウザでページを開き、アドレスバーにあるURLの後ろに「/robots.txt」または「/robot.txt」を追加する。
https://transit.yahoo.co.jp/robots.txt
- おそらくこのようなものが表示される
Sitemap: https://transit.yahoo.co.jp/sitemap/index.xml
Sitemap: https://transit.yahoo.co.jp/sitemap/navi_index_01.xml
Sitemap: https://transit.yahoo.co.jp/sitemap/navi_index_02.xml
Sitemap: https://transit.yahoo.co.jp/sitemap/navi_index_03.xml
Sitemap: https://transit.yahoo.co.jp/sitemap/navi_index_04.xml
Sitemap: https://transit.yahoo.co.jp/sitemap/navi_index_05.xml
User-agent: *
Disallow: /*.xap$
Disallow: /*.png$
Disallow: /*.dat$
Disallow: /diaedit
Disallow: /stedit
Disallow: /edit
Disallow: /search$
Disallow: /diainfo/detail$
Disallow: /main/top$
Disallow: /search/result$
Disallow: /search/result
Disallow: /feedback
Disallow: /channel.html
Allow: /search/result?*&type=5&*
Allow: /search/result/
書かれている中で、Disallowとなっている部分がアクセス禁止の部分になっており、この部分はスクレイピングできない。
(SitemapとUser-agentは今は気にしなくてもいい)
robot.txtまたはrobots.txtが見つからない場合
ページの利用規約や、ヘルプをよく読むこと。Yahoo!ファイナンスなど、robot.txtがなくてもスクレイピングが禁止されていることもある。
余談
「robot.txt」及び「robots.txt」について
これらは、Webブラウザ側が収集されたくないデータを制御するファイルで、主に
- User-Agent
- Disallow
- Allow
- Sitemap
の4つの要素から構成されている。役割はそれぞれ
- User-Agent:誰からのアクセスを拒否するかを指定する要素
- Disallow:指定されたファイルへのアクセスをブロックする要素
- Allow:指定されたファイルへのアクセスを許可する要素
- Sitemap:サイトマップの場所をアクセスした人に伝える要素
となっている。
参考文献
- データのじかん (データ収集を大幅に効率化する「スクレイピング」とは?)
- Octoparse (Webスクレイピング前に確認すべき10問)
- Alanalyst BLOG (robots.txtとは?意味から設定方法まで詳しく解説)
- PyQ (スクレイピング、クローリングする時の注意点)
- 日本大学生産工学部マネジメント工学科知能情報システム工学研究室(スクレイピングとは?)

