OpenAIのGPTBotとは、2023年8月13日に公開されましたウェブクローラーです。GPTBotは、インターネット上のテキストデータを収集し、OpenAIの言語モデルのトレーニングに使用します。
GPTBotは、プライバシーやコンテンツの品質を重視してクロールし、サイトの所有者は制御も可能です。
GPTBotがサイトにアクセスを許可すると、AIモデルがより正確になり、一般的な能力と安全性が向上します。ただし、ペイウォールへのアクセスが必要なソース、個人を特定可能な情報(PII)を収集することが知られているソース、またはポリシーに違反するテキストを含むソースはフィルタリングされます。
GPTBotのメリットとしては、以下のようなものが挙げられます。
- AIモデルのトレーニングに必要なテキストデータを大量に収集できる。
- プライバシーやコンテンツの品質を重視したクローリングが可能。
- サイトの所有者は制御が可能。
GPTBotは、今後もAIモデルの開発において重要な役割を果たしていくことが期待されています。
GPTBotのアクセスを禁止する
GPTBotがサイトへのアクセスを禁止するには、GPTBotをサイトのrobots.txtに追加することができます。
User-agent: GPTBot
Disallow: /
GPTBotのアクセスをカスタマイズする
GPTBotにサイトの一部のみへのアクセスを許可するには、GPTBotトークンをサイトのrobots.txtに以下のように追加できます。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/