robots.txt 是你和 AI 爬虫之间的第一道门。配错了,要么把想要的流量拒之门外,要么把不想给的内容全部敞开。这篇文章整理了目前市面上主要的 AI 爬虫标识,并给出两种典型场景下的完整配置示例。
当前主流 AI 爬虫 User-Agent 清单
以下分类基于爬虫的实际用途:训练爬虫用于离线积累语料,RAG 检索爬虫用于用户提问时的实时联网检索。两者的配置策略完全不同,不能混为一谈。
| 厂商 | User-Agent | 用途类型 | 备注 |
|---|---|---|---|
| OpenAI | GPTBot |
训练爬虫 | GPT 系列模型的离线语料 |
| OpenAI | ChatGPT-User |
RAG 检索爬虫 | ChatGPT 联网模式的实时抓取 |
| Anthropic | ClaudeBot |
训练 + RAG | Claude 模型训练与实时检索 |
Google-Extended |
训练爬虫 | 控制是否提供给 Gemini 离线训练,不影响 Googlebot 搜索收录 | |
| Perplexity | PerplexityBot |
RAG 检索爬虫 | AI 搜索实时检索和信源抓取 |
| ByteDance | Bytespider |
训练 + RAG | 豆包大模型及火山引擎搜索 |
| Apple | Applebot-Extended |
训练爬虫 | Apple Intelligence 模型训练数据 |
| Meta | Meta-ExternalAgent |
训练爬虫 | Meta AI(Llama 系列)语料收集 |
场景一:希望 AI 最大化引用你的内容(内容型、产品型网站)
如果你的官网内容希望被 ChatGPT、Perplexity 在回答用户问题时实时引用,同时也愿意贡献给大模型的训练语料库,使用以下开放配置:
# 明确放行主要 AI 爬虫(同时覆盖训练和实时检索)
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Bytespider
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
Sitemap: https://yourdomain.com/sitemap.xml
注意:如果你的全站已经对所有爬虫开放(User-agent: * 下没有 Disallow),以上配置并非必须——AI 爬虫默认继承通用规则。但显式声明有助于排查后续配置冲突,建议加上。
场景二:保护原创内容,仅允许 AI 实时检索(不参与模型训练)
这是目前很多媒体、知识付费平台选择的策略:不希望自己的内容被无偿用于训练,但希望用户在 Perplexity、ChatGPT 联网时能搜到并引用官网内容,带来实际流量。
# 拒绝 OpenAI 的训练爬虫
User-agent: GPTBot
Disallow: /
# 放行 ChatGPT 联网模式的实时检索(不用于训练)
User-agent: ChatGPT-User
Allow: /
# 拒绝 Gemini 训练,不影响 Google 搜索收录
User-agent: Google-Extended
Disallow: /
# 拒绝 Apple Intelligence 训练
User-agent: Applebot-Extended
Disallow: /
# 拒绝 Meta Llama 训练
User-agent: Meta-ExternalAgent
Disallow: /
# 保留 Perplexity 实时检索
User-agent: PerplexityBot
Allow: /
Sitemap: https://yourdomain.com/sitemap.xml
配置生效后的三项验证
- 状态码检查:访问
https://yourdomain.com/robots.txt,确认 HTTP 状态码为200 OK。返回404或5xx的话,部分爬虫会默认整站可访问(OpenAI 的规范如此),产生意外的全站开放。 - WAF / CDN 白名单:robots.txt 只是一份"君子协定",对恶意爬虫没有约束力。但主流 AI 厂商的爬虫是遵守的。反过来,如果你的 Cloudflare 或其他 WAF 开启了严格的 Bot 防护,可能会把 GPTBot、PerplexityBot 一起拦掉,导致协议放行却实际被阻断。需要单独将上述 UA 加入 WAF 白名单。
- Sitemap 是否可访问:在 robots.txt 末尾声明 Sitemap 路径,并确保 sitemap.xml 能被外部正常访问(非 noindex 状态),这是 AI 爬虫快速定位更新页面的重要入口。
