文化の日だから新聞で文化的な気分に、というわけで、新聞社のサイトを調査した。いわゆる全国一般紙(朝日新聞, 産経新聞, 毎日新聞, 読売新聞)のWebサイトのrobots.txtの調査結果を紹介する。
※ 記事の内容に保証はありません。実際に各サイトからデータを取得する場合には、ご自身で調査をお願いします。
調査結果をまとめると下記のようになる。朝日、産経はクローラを使ってOK、読売は基本NG、毎日は未定義となっている。
毎日新聞の未定義とは、robots.txtが見つからなかったため。そのような場合、Googleでは、全許可と判断しているようだが、個人ではどうなんだろう(Googleのrobots.txtの解釈)。
新聞 | User Agentによる制限 | 記事リスト | 記事本文 |
---|---|---|---|
朝日新聞 | なし | OK | OK |
産経新聞 | なし | OK | OK |
毎日新聞 | N/A | N/A | N/A |
読売新聞 | wget, curl, Nutch, Scrapy等は禁止 | OK | OK |
以下、調査結果の詳細。
朝日新聞
robots.txtの内容
User-Agent: *
Disallow: /video/news/TKY200903050250.html
Disallow: /kansai/news/OSK200903050055.html
Disallow: /travel/event/search/
Disallow: /science/index.html
Disallow: /entertainment/index.html
Disallow: /car/index.html
Disallow: /housing/index.html
Disallow: /showbiz/column/animagedon/index.html
Disallow: /english/newsfeatures.html
Disallow: /english/business.html
Disallow: /english/cooljapan.html
Disallow: /english/sports.html
Allow: /
sitemap: http://www.asahi.com/sitemap.xml
sitemap: http://www.asahi.com/xml-sitemap-business.xml
sitemap: http://www.asahi.com/xml_sitemap_politics.xml
sitemap: http://www.asahi.com/and_M/sitemap.txt
sitemap: http://www.asahi.com/and_w/sitemap.txt
sitemap: http://www.asahi.com/ad/sitemap.xml
記事リスト
新着ニュース一覧は下記にある
http://www.asahi.com/news/?iref=comtop_latestnews_p
Disallowにないため、アクセス可。
記事
北海道で震度4、津波の心配なし 十勝沖震源
http://www.asahi.com/articles/ASKC34CSTKC3UTIL008.html
記事は
http://www.asahi.com/articles/
以下にあるようなので、アクセス可。
産経新聞
結構細かく書かれている。
robots.txtの内容
User-Agent: *
# sitemap
Sitemap: http://www.sankei.com/sitemap.xml
Sitemap: http://www.sankei.com/sitemap_static.xml
# not contents
Disallow: /_test/
Disallow: /smp/_test/
# not crawl target
Disallow: /module/sys/ironna/relate/
Disallow: /module/design/alliance/
Disallow: */print/*-c.htm*
Disallow: /denshi/
# old contents
Disallow: /enak/
Disallow: /seiji/
Disallow: /wave/
Disallow: /kokusai/
Disallow: /shakai/
Disallow: /kyouiku/
Disallow: /keizai/
Disallow: /seikatsu/
Disallow: /tvnavi
Disallow: /seiron/
Disallow: /news/
Disallow: /6974/
Disallow: /databox/
Disallow: /edit/anke/
Disallow: /sports/fight/
記事リスト
速報は下記のURL
http://www.sankei.com/flash/newslist/flash-n1.html
Disallowにないのでアクセス可。
記事
北海道浦幌町で震度4 津波の心配なし
http://www.sankei.com/affairs/news/171103/afr1711030014-n1.html
Disallowにないのでアクセス可。
毎日新聞
毎日新聞サイトトップ
robots.txtが見つからなかった。
記事リスト
「総合」は
https://mainichi.jp/shakai/
というURL。
「速報」は
https://mainichi.jp/flash/1
というURL。
記事
北海道浦幌町で震度4 津波の心配なし
は
https://mainichi.jp/articles/20171103/k00/00e/040/223000c
というURL
読売新聞
robots.txtの内容
User-Agent: wget
Disallow: /
User-agent: Megalodon
Disallow: /
User-Agent: ia_archiver
Disallow: /
User-agent: libwww
Disallow: /
User-agent: curl
Disallow: /
User-agent: libwww-perl
Disallow: /
User-agent: Scrapy
Disallow: /
User-agent: Nutch
disallow: /
User-agent: indexpert
disallow: /
User-agent: Fess
Disallow: /
User-agent: Mechanize
Disallow: /
User-agent: Java
Disallow: /
User-agent: *
Disallow: /adv/*.swf$
Disallow: /atcars/
Disallow: /book/
Disallow: /homeguide/
Disallow: /job/
Disallow: /otona/news/
Disallow: /otona/travel/
Disallow: /otona/partner/
Disallow: /otona/life/
Disallow: /otona/drink/
Disallow: /otona/hobby/
Disallow: /otona/yesno/
Disallow: /it/news/
Disallow: /it/report/
Disallow: /it/event/
Disallow: /it/interview/
Disallow: /it/newproducts/
Disallow: /it/column/
Disallow: /komachi/special/feature/CO022912/
Disallow: /kyoiku/syuukatsu/eye/20161108-OYT8T50003.html
Sitemap:http://www.yomiuri.co.jp/sitemap.xml
他紙と違ってアクセス制御が細かい。商用検索エンジンは別として、個人がプログラムで自動アクセスするのは禁止という印象を受けた。
記事リスト
http://www.yomiuri.co.jp/latestnews/
Disallowに /latestnews/
はないので、アクセス可。
記事
北海道浦幌町で震度4、津波の心配なし
http://www.yomiuri.co.jp/national/20171103-OYT1T50039.html
/national/
, /sports/
, /culture/
, /politics/
などはDisallowに無いのでアクセス可。