備忘録です。
robots.txt に関して、
色々と困ったり、調べたりしたので、忘れない様にメモ。
■ そもそも、検索エンジンの仕組みについて
とりあえず、いくつかのサイトを見てみたところ、
- クローラーというロボットが、ネットを巡回しながらサイトの情報を収集し、
- インデクサが、クローラが収集した情報を解析し、
- 解析されたデータを元に、検索エンジン毎のアルゴリズムに従って検索結果を返す。
といった仕組みの様です。
以下、参考にしたサイトです。
-
クローラーとは?検索エンジンの仕組みを解説!【初心者向け】
- … 以下のページでは、10分程度の動画で説明してくれるので、非常にわかり易いです。
他にもこれらのサイトも参考になるかと。
- Google検索の仕組みの基本!クロールとインデックスされない恐怖を知っておかないと… | ジュンイチのブログ
- クローリングとは?仕組みとクローラーの促進&抑制方法|検索エンジンの仕組みを理解しよう | なんでものびるWEB
- クローラーとは/検索エンジンの仕組みをおさらい。クローラー対策とステータスコード | エンジニアのためのSEO入門 | Web担当者Forum
■ で、robots.txt とは?
とりあえず、いくつかのサイトを見てみたところ、
- robots.txt とは、クローラーに、「クロールされたいページ」や「クロールされたくないページ」を教えるテキストファイルで、
- そのドメインの最上位ディレクトリに設置・公開される。
みたいです。
以下のページにそのまま記載してます。
■ SEO、パフォーマンスの観点から
SEO、サイト負荷(パフォーマンス)の観点からみると、
- クローラーの巡回によりサイト負荷が上がっている場合、robots.txt で重要でない大量のコンテンツをクローラーの巡回から外すことで、サイト負荷を軽減し、
- 重要なコンテンツへの巡回効率を向上することができる。
とうことで、
重要なコンテンツと重要でないコンテンツを区別することで、
SEO 的にも、パフォーマンス(サイト負荷)的にも良いみたいです。
で、
ここでいう重要でないコンテンツを調べてみると、
- 検索エンジンにインデックスしなくてもいいページ
- 価値の低いコンテンツのページ
- 同じコンテンツの複数のページ
- サイトに入れている広告のリンク先のページ
- 限られた人にしか公開したくないページ
- 管理系のファイル
などがあるみたいです。
※[2018.13]追記
なお、
検索エンジンにインデックスしなくていいページや価値の低いコンテンツのページには、古い記事や古いリンク先が多くリンク切れが発生しているなどのメンテナンスされていないページなどが考えられるみたいです。
■ セキュリティの観点から
で、セキュリティの観点からちょっと見てみると、
以下の点が、ちょっと気になります。
- robots.txt に強制力はない
- 限られた人にしか公開したくないコンテンツがバレてしまう
robots.txt に強制力はない
これは、「「クロールされたいページ」や「クロールされたくないページ」を教える」と記載したとおり、あくまで robots.txt はクローラーに教えるだけで、クローラーがそれに従うかどうかはクローラーの判断によるみたいです。一部のクローラーには、robots.txt を無視するものもあるみたいです。
限られた人にしか公開したくないコンテンツがバレてしまう
これは、robots.txt に「管理系のファイル」や「限られた人にしか公開したくないページ」を設定した場合、検索エンジンの検索結果に出てこなくはなるものの、robots.txt は公開されているので、robots.txt を直接見てしまうと、「管理系のファイル」や「限られた人にしか公開したくないページ」がバレてしまう。ということですね。
robots.txt に設定をすることで、
- 検索エンジンの検索結果に表示されるというセキュリティリスクは軽減されたものの、
- robots.txt からセキュリティ的に重要なコンテンツがわかってしまうというセキュリティリスクが生まれてしまう
という状態が発生するかと。
これをどうみるかという判断はありますが、
兎にも角にも「セキュリティ的に重要な管理系のファイル」や「特定の限られた人にしか公開したくないページ」は、ログイン認証や IP アドレス制限など、しっかりとアクセス制限を設ける必要がありますね。
■ robots.txt の設定と確認の手順について
とりあえず、
Google Search Console を利用すると良いみたいなので、
1.まずは、Google Search Console へサイトを追加
以下のサイトを参考にサイトを追加します。
2.次に、robots.txt テスターを使って、robots.txt を設定
以下のサイトを参考に robots.txt を設定します。
X.参考
※ 参考
- Robots.txtで秘密がバレる!? [ホームページ作成] All About
- bingo-cms.jp | Website Review for bingo-cms.jp | WooRank.com
- WordPressサイトのrobots.txtについてのまとめ! | WordPressブログ作ってみる?
- robots.txt ファイルについて - Search Console ヘルプ
- robots.txtをSEO対策で利用するときに調べたことのまとめ
- robots.txtの設置方法!SEOとセキュリティ対策。WordPress用も紹介 - ゆめぴょんの知恵
- robots.txtの書き方解説「クローラーを制御してインデックス効率化する」 | プロモニスタ
- robots.txtがこんなに重要だったとは。。。身をもって知りました | Rriver
- robots.txtの作成と記述方法 使い方と注意点 | アレグロのSEOブログ 意味・解説・利点・欠点など
- robots.txtの書き方と効果的な活用法
- 初心者にも分かる!robots.txtの作り方
- robots.txtとは?「robots.txt」の書き方をまとめてみた