教程

Markdown 与 HTML 对 AI 爬虫的影响实验报告(Profound)

六个站点、381 页的随机对照:向 AI 爬虫单独交付 Markdown vs 与人类一致的 HTML。三周追踪显示中位数增益有限,均值差异靠高流量页拉高;ChatGPT-User 有约 +20% 方向性信号但不显著。文末给出 GEO/AEO 预期校准与方法说明。

  • 六个站点、381 页的随机对照:向 AI 爬虫单独交付 Markdown vs 与人类一致的 HTML。三周追踪显示中位数增益有限,均值差异靠高流量页拉高;ChatGPT-User 有约 +20% 方向性信号但不显著。文末给出 GEO/AEO 预期校准与方法说明。

过去一年,SEO 和 GEO 社群中流行着一种理论:如果你想让内容更多地出现在 ChatGPT、Perplexity 等 AI 工具中,就应该向 AI 爬虫提供 Markdown 而非 HTML。这个逻辑听起来成立——Markdown 更干净、更有结构、更容易被 LLM 解析。一些知名网站报告称,切换到 Markdown 后效果有所提升。

但大多数这类说法都属于道听途说。

于是我们决定进行一次真正的对照实验。

简要结论:我们在六个网站的 381 个页面上进行了 A/B 测试。Markdown 页面在三周内多获得了约 1 次的中位数爬虫访问。有效果,但并非一些人预期的那种颠覆性改变。

核心要点

  • 样本:6 个站点、381 页随机分组;对照组人类与爬虫均为 HTML,实验组爬虫看到 Markdown,人类始终 HTML(2026-01-19 至 02-08 追踪)。
  • 总体:Markdown 组中位数每页约多 1 次访问,均值高约 16%,但差异主要由尾部高流量页面拉高;无法确信 Markdown 单独驱动了更多流量。
  • ChatGPT-User(约占实验爬虫流量 73%)对 Markdown 有一致的约 +20% 方向性信号,但统计上不显著;效果仍集中在高爬虫流量页面。
  • 启示:与其赌格式,不如夯实可爬取、结构清晰、加载快的高质量内容;Profound 计划在 2026 年晚些时候复现实验。

一、我们测试了什么

我们与来自不同细分领域的六个真实网站合作,将 381 个页面随机分为两组:

  • 对照组(189 个页面):AI 爬虫看到的与人类访问者看到的内容相同(HTML 格式)
  • 实验组(192 个页面):AI 爬虫看到的是同一内容的干净 Markdown 版本

人类访问者始终看到 HTML,因此不存在任何用户体验影响。我们使用软件识别爬虫流量,并在传输时提供对应格式的内容。

随后,我们在三周内(2026 年 1 月 19 日至 2 月 8 日)追踪了爬虫访问量,追踪对象包括来自 OpenAIAnthropicPerplexityMetaDuckAssistBot 的爬虫,这些正是当今 AI 答案引擎背后的机器人。


二、结果:没有明确的赢家

如果 Markdown 真的是游戏规则的改变者,在这个样本下我们应该能看到。但我们没有。

从表面数字看,Markdown 组略微领先:每页多获得 1 次中位数访问,平均值高出约 16%。但关键在于:这 16% 的均值差异几乎完全由尾部的高流量页面拉高——那些本来就获得大量爬虫访问的页面在 Markdown 下有适度提升,而中位页面的增量几乎为零。

简而言之:我们无法确信 Markdown 真的驱动了更多流量。


三、ChatGPT 的信号

有一个例外值得关注:ChatGPT-User——当用户使用 ChatGPT 网络搜索功能时触发的爬虫。

ChatGPT-User 占本实验全部爬虫流量的约 73%,它是唯一一个始终显示出对 Markdown 的方向性优势(约 +20%)的爬虫。

但即便如此,这个信号在统计上也不显著。从分布来看,效果集中在本来就有高爬虫流量的页面——Markdown 组主要在第 60 百分位及以上拉开差距;中位数以下,两组几乎没有差异。

爬虫名称流量占比
ChatGPT-User73%
Meta/Facebook20%
OAI-SearchBot4%
ClaudeBot2%
GPTBot1%

四、为什么会是这样

我们的假设是:LLM 已经非常善于解析 HTML。谷歌 John Mueller 曾表示:「LLM 从一开始就在读取和解析普通网页上接受训练,可以认为它们处理 HTML 没有任何问题。」必应的 Fabrice Canel 也持相同观点,认为「AI 让我们非常擅长理解网页」,并质疑维护一套人眼永远看不到的爬虫专属内容的价值。

这些模型已经在数十亿个网页上接受了训练,而互联网的绝大多数内容都是以 HTML 格式发布的。OpenAI、Anthropic、Perplexity 等公司花了多年时间,优化其爬虫和内容提取管道,以大规模处理杂乱的、嵌套的、充满 JavaScript 的 HTML。

Markdown 在理论上更干净,但在实践中,这种干净程度能否转化为爬取优势——至少目前来看,答案尚不明确。

互联网正在向代理优先(Agentic-first)的体验演进,但我们还没有完全到达那个阶段。今天,大多数企业仍然发布 HTML。LLM 提供商是在争相抓取尽可能多互联网内容的企业,而他们正在抓取的,绝大多数是 HTML——他们为此而生。


五、对你的启示

专注于真正有用的内容

与其追逐技术技巧,不如专注于那个始终有效的事情:创作真正对目标受众有用的内容。

校准预期:这不是银弹

即使在最乐观的解读下,Markdown 的效果充其量也是微小的。我们可以自信地排除「大幅领先」的情形——如果 Markdown 能带来 40% 以上的爬虫流量增长,我们一定会检测到。数据表明,即使真实效果存在,也要小得多。

我们会重新验证这个问题

LLM 爬虫的行为正在快速演进,今天成立的结论,六个月后未必仍然成立。随着爬虫越来越智能、更多网站采用 Markdown、模型提供商不断优化内容偏好,这个公式可能会改变。我们计划在 2026 年晚些时候重新进行这个实验,并在结论有变化时及时更新指引。


六、方法论说明

本研究采用随机对照实验——因果推断的黄金标准。我们并非在比较两个不同的网站或不同的时间段,而是在同一网站内随机分配页面,以确保观察到的任何差异都源于实验处理,而非外部因素。

阶段天数日均提升
预实验期10 天2%
部署期(1 月 13 日–1 月 18 日)6 天12%
实验期21 天18%

爬虫流量本身波动较大。值得注意的是,即使在部署期(爬虫识别工具已部署但 Markdown 尚未提供),日均提升已达 +12%,这说明实验期间观察到的方向性优势中,有一部分可能只是预先存在的噪声,而非真正的 Markdown 效果。

另一方面,受限于样本量:要可靠地检测约 10% 的中等效果,每组需要更多页面。但换个角度——如果 Markdown 真的是游戏规则的改变者,我们一定会发现,因为我们的实验具备检测 40% 以上效果的统计功效,而这个效果没有出现。


七、结论

我们测试了「向 AI 爬虫提供 Markdown 能否带来更多爬虫流量」这一说法。数据不支持它——至少在能够证明其值得优先投入的规模上不支持。

如果你在优化 AI 可见性,请专注于基本功:高质量、可爬取的内容;清晰的结构;快速的加载速度;以及确保爬虫能够实际访问你的页面。你向爬虫提供的格式?很可能不是你真正需要撬动的那个杠杆。

至少目前如此。


结语

格式实验的意义在于校准预期:在六个站点、三百余页的随机对照下,Markdown 专属交付并未呈现颠覆性爬虫增益;把精力放在内容与可访问性上,仍是更稳健的优先级。

来源:tryprofound.com(Brandon Punturo,《Markdown 与 HTML 对 AI 爬虫的影响实验报告》;本站中文整理)。

返回博客列表