0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

robots.txt 徹底解説― 検索エンジン・クローラー・攻防視点から理解する Robots Exclusion Protocol

0
Posted at

1. robots.txt とは何か

robots.txt は、Web サイトの運営者が
検索エンジンなどのクローラー(Crawler / Bot)に対して、どのページをクロールしてよいか、あるいはクロールしてはいけないかを伝えるための設定ファイルである。

これは Robots Exclusion Protocol(REP) と呼ばれる取り決めに基づいており、
サイトのルートディレクトリに以下のような形で配置される。

https://example.com/robots.txt

クローラーは通常、Web サイトを巡回する際に 最初に robots.txt を取得し、その内容を確認してからクロールを行う


2. robots.txt が生まれた背景

robots.txt は 1994 年に提案された。

当時は:

  • Web が急速に普及し始めた時期
  • クローラーが無制限にページを取得
  • 小規模サーバーがクロールで落ちる事故が多発

この問題に対し、

「クローラーに“礼儀正しく”振る舞ってもらうための共通ルールを作ろう」

という発想から生まれたのが robots.txt である。

重要なのは、
これは法律でもセキュリティ機構でもなく、あくまで“君子協定”であるという点だ。


3. robots.txt の基本構文

robots.txt は非常にシンプルな構文を持つ。

基本形

User-agent: *
Disallow: /admin/

主なディレクティブ

User-agent

対象とするクローラーを指定する。

User-agent: Googlebot
User-agent: Bingbot
User-agent: *

* は「すべてのクローラー」を意味する。


Disallow

クロールを禁止するパスを指定する。

Disallow: /admin/
Disallow: /login

Allow

禁止ルールの例外を指定する。

Disallow: /admin/
Allow: /admin/help.html

4. よくある robots.txt の例

すべてのページを許可

User-agent: *
Disallow:

サイト全体をクロール禁止

User-agent: *
Disallow: /

※ 新規サイトでこれをやると、検索結果から完全に消える


特定ディレクトリのみ禁止

User-agent: *
Disallow: /private/
Disallow: /test/

5. robots.txt はセキュリティではない

ここは非常に重要なポイントである。

robots.txt でできないこと

  • アクセス制御 ❌
  • 認証 ❌
  • 暗号化 ❌
  • 攻撃防御 ❌

robots.txt は:

  • 誰でも閲覧できる
  • 内容は平文
  • 無視することも可能

つまり、

robots.txt は「見ないでください」と書いた張り紙であって、鍵ではない


6. 実際に守られるのか?

守るクローラー

  • Googlebot
  • Bingbot
  • DuckDuckBot
  • Baiduspider
  • YandexBot

主要検索エンジンはほぼ確実に遵守する


守らない可能性があるもの

  • 自作クローラー
  • スクレイパー
  • 攻撃ツール
  • 脆弱性スキャナ
  • 悪意のある Bot

技術的に robots.txt を強制する仕組みは存在しない。


7. Red Team / Recon 視点での robots.txt

攻撃者・調査者の視点では、robots.txt は 非常に価値の高い情報源になる。

よくある例

Disallow: /admin/
Disallow: /backup/
Disallow: /old/
Disallow: /dev/

これは事実上、

「ここに管理画面、バックアップ、旧バージョン、開発環境があります」

と書いてあるのと同じである。

位置づけ

  • Passive Recon
  • 低ノイズ
  • 高情報密度

多くの攻撃・演習は robots.txt の確認から始まる。


8. robots.txt と検索エンジンの関係

robots.txt が制御するのは クロール(取得) であって、
インデックス(検索結果への登録)そのものではない

  • クロール禁止でも URL がインデックスされる場合がある
  • 中身は取得されないが、URL だけ残ることもある

この挙動は SEO 上の注意点でもある。


9. robots.txt の標準化

長年「慣習」として使われてきた robots.txt だが、

  • 2022 年:RFC 9309 として正式標準化

つまり robots.txt は、

約 30 年間、事実上の標準として使われ続けた珍しいプロトコル

である。


10. まとめ

robots.txt は:

  • 検索エンジン向けのクロール制御ファイル
  • セキュリティ機構ではない
  • 主流検索エンジンは遵守する
  • 攻防・Recon 視点では重要な情報源

robots.txt は「クローラーの行動を制御するための礼儀ルール」であり、同時に「情報収集の入口」にもなり得る。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?