用 JSON-LD 告诉大模型你是谁：结构化数据配置实战

AI 爬虫在解析一个普通 HTML 页面时需要做大量的"猜测"工作：哪段文字是导航栏，哪段是广告，哪段才是实际内容？这个清洗过程会引入噪音和误差。JSON-LD 则不同——它是一段藏在 <head> 里的机器可读代码，直接按照 Schema.org 国际语义标准描述"这个页面说的是什么"，大模型爬虫可以跳过清洗，直接读取。

这篇文章聚焦 GEO 场景下最常用的三种 Schema 类型，附完整可用的代码模板。

为什么 JSON-LD 对 AI 收录特别有效

Google 研究团队的一份内部文档（已公开）提到，结构化数据的部署是提升 AI 摘要引用准确率的关键信号之一。原因很直接：当模型需要判断"这个页面的产品名是什么"、"价格是多少"时，从非结构化的正文段落里提取这些信息的准确率大约在 70-80%，而从 JSON-LD 里直接读取的准确率接近 100%。高置信度意味着大模型更倾向于采信这个信源。

Schema 类型一：Organization（品牌/组织）

这是企业官网的基础配置，用于向大模型声明：我是谁，我的官网在哪里，我关联哪些社交平台。缺少这个 Schema，大模型在处理"介绍一下 XX 公司"类问题时，只能依赖正文猜测，容易出现幻觉（如把另一家同名公司的信息张冠李戴）。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "GetnextGEO",
  "url": "https://www.getnextgeo.com",
  "logo": "https://www.getnextgeo.com/logo.png",
  "description": "面向企业的 AI 品牌可见度监测与生成式引擎优化（GEO）评估平台",
  "foundingDate": "2025",
  "sameAs": [
    "https://github.com/getnextgeo"
  ],
  "contactPoint": {
    "@type": "ContactPoint",
    "contactType": "customer support",
    "email": "support@getnextgeo.com"
  }
}
</script>

Schema 类型二：Product + Offer（产品与定价）

当用户通过 AI 问"有哪些 GEO 监测工具，大概多少钱"，大模型会扫描带有 Product Schema 的页面，直接提取定价数据进行对比。如果你的定价页面没有 Schema，大模型只能从段落正文里提取，漏检率很高。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Product",
  "name": "GetnextGEO 品牌可见度监测方案",
  "description": "实时监控主流大模型（ChatGPT、Claude、豆包、元宝等）中品牌提及率的专业系统，支持情感分析与竞品对比",
  "brand": {
    "@type": "Brand",
    "name": "GetnextGEO"
  },
  "offers": {
    "@type": "Offer",
    "price": "99.00",
    "priceCurrency": "CNY",
    "availability": "https://schema.org/InStock",
    "url": "https://www.getnextgeo.com/pricing"
  }
}
</script>

注意 priceCurrency 务必填写正确的货币代码（人民币为 CNY，美元为 USD）。货币代码错误会导致大模型在引用价格时产生误导。

Schema 类型三：FAQPage（常见问题页）

FAQ 页面是 GEO 优化性价比最高的内容格式。大模型在 RAG 检索时偏好问答结构，因为这种格式与用户 Prompt 的"问题—答案"模式天然对齐，切片后每个 Q&A 对都可以作为一个独立语义单元被召回。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "GEO 和 SEO 有什么区别？",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "SEO 优化的目标是在传统搜索引擎的链接列表（如 Google 蓝色链接）中获得高排名；GEO 优化的目标是让品牌内容被大语言模型纳入生成答案的原始素材，从而出现在 ChatGPT、Perplexity 等 AI 的直接回答中。"
      }
    },
    {
      "@type": "Question",
      "name": "为什么我更新了官网，但 ChatGPT 的回答还是旧的？",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "大模型的联网功能依赖底层搜索引擎（如 Bing）的缓存。如果搜索引擎尚未重新爬取你的页面，大模型拿到的仍然是旧版本。可以通过 Bing Webmaster Tools 主动提交 URL 加速索引更新。"
      }
    }
  ]
}
</script>

三条不能违反的铁律

数据一致性：JSON-LD 中的价格、产品名、联系邮箱等必须与页面正文完全一致。不一致会被搜索引擎和大模型视为欺骗行为，可能降低整体信任度。
上线前校验语法：哪怕一个多余的逗号也会导致整个 JSON-LD 解析失败，等于什么都没配。上线前用 Google 的结构化数据测试工具（search.google.com/test/rich-results）验证一遍。
按页面类型配置：不要在所有页面放同一份 Schema。文章页配 Article，产品页配 Product，帮助中心配 FAQPage。千篇一律的全局 Schema 对 AI 爬虫没有额外帮助。