Robots.txt 配置手册:哪些 AI 爬虫该放行,哪些该屏蔽

2026年6月11日270 次阅读

robots.txt 是你和 AI 爬虫之间的第一道门。配错了,要么把想要的流量拒之门外,要么把不想给的内容全部敞开。这篇文章整理了目前市面上主要的 AI 爬虫标识,并给出两种典型场景下的完整配置示例。

当前主流 AI 爬虫 User-Agent 清单

以下分类基于爬虫的实际用途:训练爬虫用于离线积累语料,RAG 检索爬虫用于用户提问时的实时联网检索。两者的配置策略完全不同,不能混为一谈。

厂商 User-Agent 用途类型 备注
OpenAI GPTBot 训练爬虫 GPT 系列模型的离线语料
OpenAI ChatGPT-User RAG 检索爬虫 ChatGPT 联网模式的实时抓取
Anthropic ClaudeBot 训练 + RAG Claude 模型训练与实时检索
Google Google-Extended 训练爬虫 控制是否提供给 Gemini 离线训练,不影响 Googlebot 搜索收录
Perplexity PerplexityBot RAG 检索爬虫 AI 搜索实时检索和信源抓取
ByteDance Bytespider 训练 + RAG 豆包大模型及火山引擎搜索
Apple Applebot-Extended 训练爬虫 Apple Intelligence 模型训练数据
Meta Meta-ExternalAgent 训练爬虫 Meta AI(Llama 系列)语料收集

场景一:希望 AI 最大化引用你的内容(内容型、产品型网站)

如果你的官网内容希望被 ChatGPT、Perplexity 在回答用户问题时实时引用,同时也愿意贡献给大模型的训练语料库,使用以下开放配置:

# 明确放行主要 AI 爬虫(同时覆盖训练和实时检索)
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

注意:如果你的全站已经对所有爬虫开放(User-agent: * 下没有 Disallow),以上配置并非必须——AI 爬虫默认继承通用规则。但显式声明有助于排查后续配置冲突,建议加上。

场景二:保护原创内容,仅允许 AI 实时检索(不参与模型训练)

这是目前很多媒体、知识付费平台选择的策略:不希望自己的内容被无偿用于训练,但希望用户在 Perplexity、ChatGPT 联网时能搜到并引用官网内容,带来实际流量。

# 拒绝 OpenAI 的训练爬虫
User-agent: GPTBot
Disallow: /

# 放行 ChatGPT 联网模式的实时检索(不用于训练)
User-agent: ChatGPT-User
Allow: /

# 拒绝 Gemini 训练,不影响 Google 搜索收录
User-agent: Google-Extended
Disallow: /

# 拒绝 Apple Intelligence 训练
User-agent: Applebot-Extended
Disallow: /

# 拒绝 Meta Llama 训练
User-agent: Meta-ExternalAgent
Disallow: /

# 保留 Perplexity 实时检索
User-agent: PerplexityBot
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

配置生效后的三项验证

  1. 状态码检查:访问 https://yourdomain.com/robots.txt,确认 HTTP 状态码为 200 OK。返回 4045xx 的话,部分爬虫会默认整站可访问(OpenAI 的规范如此),产生意外的全站开放。
  2. WAF / CDN 白名单:robots.txt 只是一份"君子协定",对恶意爬虫没有约束力。但主流 AI 厂商的爬虫是遵守的。反过来,如果你的 Cloudflare 或其他 WAF 开启了严格的 Bot 防护,可能会把 GPTBot、PerplexityBot 一起拦掉,导致协议放行却实际被阻断。需要单独将上述 UA 加入 WAF 白名单。
  3. Sitemap 是否可访问:在 robots.txt 末尾声明 Sitemap 路径,并确保 sitemap.xml 能被外部正常访问(非 noindex 状态),这是 AI 爬虫快速定位更新页面的重要入口。