Robots.txt 配置手册：哪些 AI 爬虫该放行，哪些该屏蔽

robots.txt 是你和 AI 爬虫之间的第一道门。配错了，要么把想要的流量拒之门外，要么把不想给的内容全部敞开。这篇文章整理了目前市面上主要的 AI 爬虫标识，并给出两种典型场景下的完整配置示例。

当前主流 AI 爬虫 User-Agent 清单

以下分类基于爬虫的实际用途：训练爬虫用于离线积累语料，RAG 检索爬虫用于用户提问时的实时联网检索。两者的配置策略完全不同，不能混为一谈。

厂商	User-Agent	用途类型	备注
OpenAI	`GPTBot`	训练爬虫	GPT 系列模型的离线语料
OpenAI	`ChatGPT-User`	RAG 检索爬虫	ChatGPT 联网模式的实时抓取
Anthropic	`ClaudeBot`	训练 + RAG	Claude 模型训练与实时检索
Google	`Google-Extended`	训练爬虫	控制是否提供给 Gemini 离线训练，不影响 Googlebot 搜索收录
Perplexity	`PerplexityBot`	RAG 检索爬虫	AI 搜索实时检索和信源抓取
ByteDance	`Bytespider`	训练 + RAG	豆包大模型及火山引擎搜索
Apple	`Applebot-Extended`	训练爬虫	Apple Intelligence 模型训练数据
Meta	`Meta-ExternalAgent`	训练爬虫	Meta AI（Llama 系列）语料收集

场景一：希望 AI 最大化引用你的内容（内容型、产品型网站）

如果你的官网内容希望被 ChatGPT、Perplexity 在回答用户问题时实时引用，同时也愿意贡献给大模型的训练语料库，使用以下开放配置：

# 明确放行主要 AI 爬虫（同时覆盖训练和实时检索）
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

注意：如果你的全站已经对所有爬虫开放（User-agent: * 下没有 Disallow），以上配置并非必须——AI 爬虫默认继承通用规则。但显式声明有助于排查后续配置冲突，建议加上。

场景二：保护原创内容，仅允许 AI 实时检索（不参与模型训练）

这是目前很多媒体、知识付费平台选择的策略：不希望自己的内容被无偿用于训练，但希望用户在 Perplexity、ChatGPT 联网时能搜到并引用官网内容，带来实际流量。

# 拒绝 OpenAI 的训练爬虫
User-agent: GPTBot
Disallow: /

# 放行 ChatGPT 联网模式的实时检索（不用于训练）
User-agent: ChatGPT-User
Allow: /

# 拒绝 Gemini 训练，不影响 Google 搜索收录
User-agent: Google-Extended
Disallow: /

# 拒绝 Apple Intelligence 训练
User-agent: Applebot-Extended
Disallow: /

# 拒绝 Meta Llama 训练
User-agent: Meta-ExternalAgent
Disallow: /

# 保留 Perplexity 实时检索
User-agent: PerplexityBot
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml

配置生效后的三项验证

状态码检查：访问 https://yourdomain.com/robots.txt，确认 HTTP 状态码为 200 OK。返回 404 或 5xx 的话，部分爬虫会默认整站可访问（OpenAI 的规范如此），产生意外的全站开放。
WAF / CDN 白名单：robots.txt 只是一份"君子协定"，对恶意爬虫没有约束力。但主流 AI 厂商的爬虫是遵守的。反过来，如果你的 Cloudflare 或其他 WAF 开启了严格的 Bot 防护，可能会把 GPTBot、PerplexityBot 一起拦掉，导致协议放行却实际被阻断。需要单独将上述 UA 加入 WAF 白名单。
Sitemap 是否可访问：在 robots.txt 末尾声明 Sitemap 路径，并确保 sitemap.xml 能被外部正常访问（非 noindex 状态），这是 AI 爬虫快速定位更新页面的重要入口。