LoginSignup
0
0

More than 5 years have passed since last update.

robots.txtの調査 国内の新聞・一般紙編

Last updated at Posted at 2017-11-03

文化の日だから新聞で文化的な気分に、というわけで、新聞社のサイトを調査した。いわゆる全国一般紙(朝日新聞, 産経新聞, 毎日新聞, 読売新聞)のWebサイトのrobots.txtの調査結果を紹介する。

※ 記事の内容に保証はありません。実際に各サイトからデータを取得する場合には、ご自身で調査をお願いします。

調査結果をまとめると下記のようになる。朝日、産経はクローラを使ってOK、読売は基本NG、毎日は未定義となっている。

毎日新聞の未定義とは、robots.txtが見つからなかったため。そのような場合、Googleでは、全許可と判断しているようだが、個人ではどうなんだろう(Googleのrobots.txtの解釈)。

新聞 User Agentによる制限 記事リスト 記事本文
朝日新聞 なし OK OK
産経新聞 なし OK OK
毎日新聞 N/A N/A N/A
読売新聞 wget, curl, Nutch, Scrapy等は禁止 OK OK

以下、調査結果の詳細。

朝日新聞

robots.txtの内容

User-Agent: *
Disallow: /video/news/TKY200903050250.html
Disallow: /kansai/news/OSK200903050055.html
Disallow: /travel/event/search/
Disallow: /science/index.html
Disallow: /entertainment/index.html
Disallow: /car/index.html
Disallow: /housing/index.html
Disallow: /showbiz/column/animagedon/index.html
Disallow: /english/newsfeatures.html
Disallow: /english/business.html
Disallow: /english/cooljapan.html
Disallow: /english/sports.html
Allow: /

sitemap: http://www.asahi.com/sitemap.xml
sitemap: http://www.asahi.com/xml-sitemap-business.xml
sitemap: http://www.asahi.com/xml_sitemap_politics.xml
sitemap: http://www.asahi.com/and_M/sitemap.txt
sitemap: http://www.asahi.com/and_w/sitemap.txt
sitemap: http://www.asahi.com/ad/sitemap.xml

記事リスト

新着ニュース一覧は下記にある
http://www.asahi.com/news/?iref=comtop_latestnews_p
Disallowにないため、アクセス可。

記事

北海道で震度4、津波の心配なし 十勝沖震源
http://www.asahi.com/articles/ASKC34CSTKC3UTIL008.html

記事は
http://www.asahi.com/articles/
以下にあるようなので、アクセス可。

産経新聞

結構細かく書かれている。

産経新聞のサイトトップ
robots.txt

robots.txtの内容

User-Agent: *

# sitemap
Sitemap: http://www.sankei.com/sitemap.xml
Sitemap: http://www.sankei.com/sitemap_static.xml

# not contents
Disallow: /_test/
Disallow: /smp/_test/

# not crawl target
Disallow: /module/sys/ironna/relate/
Disallow: /module/design/alliance/
Disallow: */print/*-c.htm*
Disallow: /denshi/

# old contents
Disallow: /enak/
Disallow: /seiji/
Disallow: /wave/
Disallow: /kokusai/
Disallow: /shakai/
Disallow: /kyouiku/
Disallow: /keizai/
Disallow: /seikatsu/
Disallow: /tvnavi
Disallow: /seiron/

Disallow: /news/
Disallow: /6974/
Disallow: /databox/
Disallow: /edit/anke/
Disallow: /sports/fight/

記事リスト

速報は下記のURL
http://www.sankei.com/flash/newslist/flash-n1.html
Disallowにないのでアクセス可。

記事

北海道浦幌町で震度4 津波の心配なし
http://www.sankei.com/affairs/news/171103/afr1711030014-n1.html

Disallowにないのでアクセス可。

毎日新聞

毎日新聞サイトトップ
robots.txtが見つからなかった。

記事リスト

「総合」は
https://mainichi.jp/shakai/
というURL。

「速報」は
https://mainichi.jp/flash/1
というURL。

記事

北海道浦幌町で震度4 津波の心配なし

https://mainichi.jp/articles/20171103/k00/00e/040/223000c
というURL

読売新聞

読売新聞サイトトップ
robots.txt

robots.txtの内容

User-Agent: wget
Disallow: /

User-agent: Megalodon
Disallow: /

User-Agent: ia_archiver
Disallow: /

User-agent: libwww
Disallow: /

User-agent: curl
Disallow: /

User-agent: libwww-perl
Disallow: /

User-agent: Scrapy
Disallow: /

User-agent: Nutch
disallow: /

User-agent: indexpert
disallow: /

User-agent: Fess
Disallow: /

User-agent: Mechanize
Disallow: /

User-agent: Java
Disallow: /

User-agent: *
Disallow: /adv/*.swf$
Disallow: /atcars/
Disallow: /book/
Disallow: /homeguide/
Disallow: /job/
Disallow: /otona/news/
Disallow: /otona/travel/
Disallow: /otona/partner/
Disallow: /otona/life/
Disallow: /otona/drink/
Disallow: /otona/hobby/
Disallow: /otona/yesno/
Disallow: /it/news/
Disallow: /it/report/
Disallow: /it/event/
Disallow: /it/interview/
Disallow: /it/newproducts/
Disallow: /it/column/
Disallow: /komachi/special/feature/CO022912/
Disallow: /kyoiku/syuukatsu/eye/20161108-OYT8T50003.html

Sitemap:http://www.yomiuri.co.jp/sitemap.xml

他紙と違ってアクセス制御が細かい。商用検索エンジンは別として、個人がプログラムで自動アクセスするのは禁止という印象を受けた。

記事リスト

http://www.yomiuri.co.jp/latestnews/
Disallowに /latestnews/ はないので、アクセス可。

記事

北海道浦幌町で震度4、津波の心配なし
http://www.yomiuri.co.jp/national/20171103-OYT1T50039.html

/national/, /sports/, /culture/, /politics/などはDisallowに無いのでアクセス可。

参考文献

Robots.txt の仕様
Webスクレイピングの注意事項一覧
robots.txt - Qiita

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0