大手サイトのrobots.txt
Google:https://www.google.com/robots.txt
Facebook:https://www.facebook.com/robots.txt
ヤフオク:https://auctions.yahoo.co.jp/robots.txt
アマナイメージズ:https://amanaimages.com/robots.txt
オンライン解析ツール一例
- robots.txtオンライン解析ツール
- Is your website available for crawlers? - Robots.txt Testing Tool
- New Robots.txt Syntax Checker: a validator for robots.txt files
- Robots.txt Test | SeoSiteCheckup.com
bingbot,msnbot
アクセス数が無視できない量になってきたため調査した。
- Crawl delay and the Bing crawler, MSNBot | Webmaster Blog
- To crawl or not to crawl, that is BingBot's question | Webmaster Blog
- bingbotにはCrawl-delayもクロール制御も効かない - ヲレサイト
単位は分
User-agent: msnbot
Crawl-delay: 10
User-agent: bingbot
Crawl-delay: 30
知見
- 空行を入れること
robots.txt例
User-agent: Yandex
Disallow: /
User-agent: SemrushBot
Disallow: /
- 最終行に空行を入れること
- WEBサイトからのコピペで書くと、その行に見えないダメ文字が入っている可能性がある。(解析ツールにてエラーが出るのでわかる。)
書式
Disallowに対してAllowが上書きする。長いPATHが短いPATHを上書きする。(コメント欄参照)
最終行は空行である必要がある。
User-agent: *
Disallow: /
Allow: /public/
Allow: /public2/
metaタグに書く場合
robots.txtはDocumentRoot直下に置く必要がありますが置けない、置きたくない場合もあります。
まずそうなファイルにはmetaタグに書く。
<meta name="robots" content="none,noarchive">
<meta name="Googlebot" content="noarchive">