robots.txtについて
概要
- 検索エンジンのクローラーがサイトをクロールする際に参照するファイル
- ルートディレクトリにおいて使用する
- e.g.
https://example.com/robots.txt
- e.g.
- クローラーのユーザエージェントによって参照させるディレクトリを変えることができる
robots.txt
はお願いベースのプロトコルであるため、クローラーがrobots.txt
に従うかどうかはクローラー次第- 近年ではAIに学習されたくないという意思表示をするために使用されることがある
設定例
# Googlebotに対する設定
User-agent: Googlebot
Disallow: /private/
Allow: /private/public/
# Bingのクローラーに対する設定
User-agent: Bingbot
Disallow: /private/
Disallow: /archive/
# GPTBot(openai)のクローラーに対する設定
User-agent: GPTBot
Disallow: /private/
Disallow: /archive/
# すべてのクローラーに対するデフォルトの設定
User-agent: *
Disallow: /tmp/
参考になる設定
$ curl -s https://gigazine.net/robots.txt | less