• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

robots.txt

date: 2023-10-09 excerpt: robots.txtについて

tag: robots.txtSEO検索エンジン


robots.txtについて

概要

  • 検索エンジンのクローラーがサイトをクロールする際に参照するファイル
  • ルートディレクトリにおいて使用する
    • e.g. https://example.com/robots.txt
  • クローラーのユーザエージェントによって参照させるディレクトリを変えることができる
  • robots.txtはお願いベースのプロトコルであるため、クローラーがrobots.txtに従うかどうかはクローラー次第
  • 近年ではAIに学習されたくないという意思表示をするために使用されることがある

設定例

# Googlebotに対する設定
User-agent: Googlebot
Disallow: /private/
Allow: /private/public/

# Bingのクローラーに対する設定
User-agent: Bingbot
Disallow: /private/
Disallow: /archive/

# GPTBot(openai)のクローラーに対する設定
User-agent: GPTBot
Disallow: /private/
Disallow: /archive/

# すべてのクローラーに対するデフォルトの設定
User-agent: *
Disallow: /tmp/

参考になる設定

$ curl -s https://gigazine.net/robots.txt | less

参考

  • GPTBot


robots.txtSEO検索エンジン Share Tweet