1. robots.txt とは何か
robots.txt は、Web サイトの運営者が
検索エンジンなどのクローラー(Crawler / Bot)に対して、どのページをクロールしてよいか、あるいはクロールしてはいけないかを伝えるための設定ファイルである。
これは Robots Exclusion Protocol(REP) と呼ばれる取り決めに基づいており、
サイトのルートディレクトリに以下のような形で配置される。
https://example.com/robots.txt
クローラーは通常、Web サイトを巡回する際に 最初に robots.txt を取得し、その内容を確認してからクロールを行う。
2. robots.txt が生まれた背景
robots.txt は 1994 年に提案された。
当時は:
- Web が急速に普及し始めた時期
- クローラーが無制限にページを取得
- 小規模サーバーがクロールで落ちる事故が多発
この問題に対し、
「クローラーに“礼儀正しく”振る舞ってもらうための共通ルールを作ろう」
という発想から生まれたのが robots.txt である。
重要なのは、
これは法律でもセキュリティ機構でもなく、あくまで“君子協定”であるという点だ。
3. robots.txt の基本構文
robots.txt は非常にシンプルな構文を持つ。
基本形
User-agent: *
Disallow: /admin/
主なディレクティブ
User-agent
対象とするクローラーを指定する。
User-agent: Googlebot
User-agent: Bingbot
User-agent: *
* は「すべてのクローラー」を意味する。
Disallow
クロールを禁止するパスを指定する。
Disallow: /admin/
Disallow: /login
Allow
禁止ルールの例外を指定する。
Disallow: /admin/
Allow: /admin/help.html
4. よくある robots.txt の例
すべてのページを許可
User-agent: *
Disallow:
サイト全体をクロール禁止
User-agent: *
Disallow: /
※ 新規サイトでこれをやると、検索結果から完全に消える
特定ディレクトリのみ禁止
User-agent: *
Disallow: /private/
Disallow: /test/
5. robots.txt はセキュリティではない
ここは非常に重要なポイントである。
robots.txt でできないこと
- アクセス制御 ❌
- 認証 ❌
- 暗号化 ❌
- 攻撃防御 ❌
robots.txt は:
- 誰でも閲覧できる
- 内容は平文
- 無視することも可能
つまり、
robots.txt は「見ないでください」と書いた張り紙であって、鍵ではない
6. 実際に守られるのか?
守るクローラー
- Googlebot
- Bingbot
- DuckDuckBot
- Baiduspider
- YandexBot
主要検索エンジンはほぼ確実に遵守する
守らない可能性があるもの
- 自作クローラー
- スクレイパー
- 攻撃ツール
- 脆弱性スキャナ
- 悪意のある Bot
技術的に robots.txt を強制する仕組みは存在しない。
7. Red Team / Recon 視点での robots.txt
攻撃者・調査者の視点では、robots.txt は 非常に価値の高い情報源になる。
よくある例
Disallow: /admin/
Disallow: /backup/
Disallow: /old/
Disallow: /dev/
これは事実上、
「ここに管理画面、バックアップ、旧バージョン、開発環境があります」
と書いてあるのと同じである。
位置づけ
- Passive Recon
- 低ノイズ
- 高情報密度
多くの攻撃・演習は robots.txt の確認から始まる。
8. robots.txt と検索エンジンの関係
robots.txt が制御するのは クロール(取得) であって、
インデックス(検索結果への登録)そのものではない。
- クロール禁止でも URL がインデックスされる場合がある
- 中身は取得されないが、URL だけ残ることもある
この挙動は SEO 上の注意点でもある。
9. robots.txt の標準化
長年「慣習」として使われてきた robots.txt だが、
- 2022 年:RFC 9309 として正式標準化
つまり robots.txt は、
約 30 年間、事実上の標準として使われ続けた珍しいプロトコル
である。
10. まとめ
robots.txt は:
- 検索エンジン向けのクロール制御ファイル
- セキュリティ機構ではない
- 主流検索エンジンは遵守する
- 攻防・Recon 視点では重要な情報源
robots.txt は「クローラーの行動を制御するための礼儀ルール」であり、同時に「情報収集の入口」にもなり得る。