用 JSON-LD 告诉大模型你是谁:结构化数据配置实战

2026年6月11日369 次阅读

AI 爬虫在解析一个普通 HTML 页面时需要做大量的"猜测"工作:哪段文字是导航栏,哪段是广告,哪段才是实际内容?这个清洗过程会引入噪音和误差。JSON-LD 则不同——它是一段藏在 <head> 里的机器可读代码,直接按照 Schema.org 国际语义标准描述"这个页面说的是什么",大模型爬虫可以跳过清洗,直接读取。

这篇文章聚焦 GEO 场景下最常用的三种 Schema 类型,附完整可用的代码模板。

为什么 JSON-LD 对 AI 收录特别有效

Google 研究团队的一份内部文档(已公开)提到,结构化数据的部署是提升 AI 摘要引用准确率的关键信号之一。原因很直接:当模型需要判断"这个页面的产品名是什么"、"价格是多少"时,从非结构化的正文段落里提取这些信息的准确率大约在 70-80%,而从 JSON-LD 里直接读取的准确率接近 100%。高置信度意味着大模型更倾向于采信这个信源。

Schema 类型一:Organization(品牌/组织)

这是企业官网的基础配置,用于向大模型声明:我是谁,我的官网在哪里,我关联哪些社交平台。缺少这个 Schema,大模型在处理"介绍一下 XX 公司"类问题时,只能依赖正文猜测,容易出现幻觉(如把另一家同名公司的信息张冠李戴)。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "GetnextGEO",
  "url": "https://www.getnextgeo.com",
  "logo": "https://www.getnextgeo.com/logo.png",
  "description": "面向企业的 AI 品牌可见度监测与生成式引擎优化(GEO)评估平台",
  "foundingDate": "2025",
  "sameAs": [
    "https://github.com/getnextgeo"
  ],
  "contactPoint": {
    "@type": "ContactPoint",
    "contactType": "customer support",
    "email": "support@getnextgeo.com"
  }
}
</script>

Schema 类型二:Product + Offer(产品与定价)

当用户通过 AI 问"有哪些 GEO 监测工具,大概多少钱",大模型会扫描带有 Product Schema 的页面,直接提取定价数据进行对比。如果你的定价页面没有 Schema,大模型只能从段落正文里提取,漏检率很高。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Product",
  "name": "GetnextGEO 品牌可见度监测方案",
  "description": "实时监控主流大模型(ChatGPT、Claude、豆包、元宝等)中品牌提及率的专业系统,支持情感分析与竞品对比",
  "brand": {
    "@type": "Brand",
    "name": "GetnextGEO"
  },
  "offers": {
    "@type": "Offer",
    "price": "99.00",
    "priceCurrency": "CNY",
    "availability": "https://schema.org/InStock",
    "url": "https://www.getnextgeo.com/pricing"
  }
}
</script>

注意 priceCurrency 务必填写正确的货币代码(人民币为 CNY,美元为 USD)。货币代码错误会导致大模型在引用价格时产生误导。

Schema 类型三:FAQPage(常见问题页)

FAQ 页面是 GEO 优化性价比最高的内容格式。大模型在 RAG 检索时偏好问答结构,因为这种格式与用户 Prompt 的"问题—答案"模式天然对齐,切片后每个 Q&A 对都可以作为一个独立语义单元被召回。

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "GEO 和 SEO 有什么区别?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "SEO 优化的目标是在传统搜索引擎的链接列表(如 Google 蓝色链接)中获得高排名;GEO 优化的目标是让品牌内容被大语言模型纳入生成答案的原始素材,从而出现在 ChatGPT、Perplexity 等 AI 的直接回答中。"
      }
    },
    {
      "@type": "Question",
      "name": "为什么我更新了官网,但 ChatGPT 的回答还是旧的?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "大模型的联网功能依赖底层搜索引擎(如 Bing)的缓存。如果搜索引擎尚未重新爬取你的页面,大模型拿到的仍然是旧版本。可以通过 Bing Webmaster Tools 主动提交 URL 加速索引更新。"
      }
    }
  ]
}
</script>

三条不能违反的铁律

  1. 数据一致性:JSON-LD 中的价格、产品名、联系邮箱等必须与页面正文完全一致。不一致会被搜索引擎和大模型视为欺骗行为,可能降低整体信任度。
  2. 上线前校验语法:哪怕一个多余的逗号也会导致整个 JSON-LD 解析失败,等于什么都没配。上线前用 Google 的结构化数据测试工具(search.google.com/test/rich-results)验证一遍。
  3. 按页面类型配置:不要在所有页面放同一份 Schema。文章页配 Article,产品页配 Product,帮助中心配 FAQPage。千篇一律的全局 Schema 对 AI 爬虫没有额外帮助。