セキュリティ
robots.txt
SEO

【備忘録】robots.txt について

備忘録です。

robots.txt に関して、
色々と困ったり、調べたりしたので、忘れない様にメモ。

■ そもそも、検索エンジンの仕組みについて

とりあえず、いくつかのサイトを見てみたところ、

  • クローラーというロボットが、ネットを巡回しながらサイトの情報を収集し、
  • インデクサが、クローラが収集した情報を解析し、
  • 解析されたデータを元に、検索エンジン毎のアルゴリズムに従って検索結果を返す。

といった仕組みの様です。

以下、参考にしたサイトです。

他にもこれらのサイトも参考になるかと。

■ で、robots.txt とは?

とりあえず、いくつかのサイトを見てみたところ、

  • robots.txt とは、クローラーに、「クロールされたいページ」や「クロールされたくないページ」を教えるテキストファイルで、
  • そのドメインの最上位ディレクトリに設置・公開される。

みたいです。

以下のページにそのまま記載してます。

■ SEO、パフォーマンスの観点から

SEO、サイト負荷(パフォーマンス)の観点からみると、

  • クローラーの巡回によりサイト負荷が上がっている場合、robots.txt で重要でない大量のコンテンツをクローラーの巡回から外すことで、サイト負荷を軽減し、
  • 重要なコンテンツへの巡回効率を向上することができる。

とうことで、
重要なコンテンツと重要でないコンテンツを区別することで、
SEO 的にも、パフォーマンス(サイト負荷)的にも良いみたいです。

で、
ここでいう重要でないコンテンツを調べてみると、

  1. 検索エンジンにインデックスしなくてもいいページ
  2. 価値の低いコンテンツのページ
  3. 同じコンテンツの複数のページ
  4. サイトに入れている広告のリンク先のページ
  5. 限られた人にしか公開したくないページ
  6. 管理系のファイル

などがあるみたいです。

※[2018.13]追記
なお、
検索エンジンにインデックスしなくていいページや価値の低いコンテンツのページには、古い記事や古いリンク先が多くリンク切れが発生しているなどのメンテナンスされていないページなどが考えられるみたいです。

■ セキュリティの観点から

で、セキュリティの観点からちょっと見てみると、
以下の点が、ちょっと気になります。

  • robots.txt に強制力はない
  • 限られた人にしか公開したくないコンテンツがバレてしまう

robots.txt に強制力はない

これは、「「クロールされたいページ」や「クロールされたくないページ」を教える」と記載したとおり、あくまで robots.txt はクローラーに教えるだけで、クローラーがそれに従うかどうかはクローラーの判断によるみたいです。一部のクローラーには、robots.txt を無視するものもあるみたいです。

限られた人にしか公開したくないコンテンツがバレてしまう

これは、robots.txt に「管理系のファイル」や「限られた人にしか公開したくないページ」を設定した場合、検索エンジンの検索結果に出てこなくはなるものの、robots.txt は公開されているので、robots.txt を直接見てしまうと、「管理系のファイル」や「限られた人にしか公開したくないページ」がバレてしまう。ということですね。

robots.txt に設定をすることで、

  • 検索エンジンの検索結果に表示されるというセキュリティリスクは軽減されたものの、
  • robots.txt からセキュリティ的に重要なコンテンツがわかってしまうというセキュリティリスクが生まれてしまう

という状態が発生するかと。

これをどうみるかという判断はありますが、
兎にも角にも「セキュリティ的に重要な管理系のファイル」や「特定の限られた人にしか公開したくないページ」は、ログイン認証や IP アドレス制限など、しっかりとアクセス制限を設ける必要がありますね。

■ robots.txt の設定と確認の手順について

とりあえず、
Google Search Console を利用すると良いみたいなので、

1.まずは、Google Search Console へサイトを追加

以下のサイトを参考にサイトを追加します。

2.次に、robots.txt テスターを使って、robots.txt を設定

以下のサイトを参考に robots.txt を設定します。

X.参考



※ 参考