教程

Markdown 与 HTML 对 AI 爬虫的影响实验报告（Profound）

六个站点、381 页的随机对照：向 AI 爬虫单独交付 Markdown vs 与人类一致的 HTML。三周追踪显示中位数增益有限，均值差异靠高流量页拉高；ChatGPT-User 有约 +20% 方向性信号但不显著。文末给出 GEO/AEO 预期校准与方法说明。

六个站点、381 页的随机对照：向 AI 爬虫单独交付 Markdown vs 与人类一致的 HTML。三周追踪显示中位数增益有限，均值差异靠高流量页拉高；ChatGPT-User 有约 +20% 方向性信号但不显著。文末给出 GEO/AEO 预期校准与方法说明。

AI搜索优化：获得AI引用的完整指南：当 AI 概述出现时，网络搜索的自然点击率下降了 61%。更重要的是：AI 搜索流量转化率为 14.2%，而谷歌有机流量为 2.8%——AI 搜索流量的转化率比谷歌自然流量高出约 4 至 6 倍。本指南端到端覆盖 AI 搜索优化的商业价值、框架、策略与衡量方法，以数据为基础而非炒作。
ChatGPT 如何从网络获取引用来源（Profound）：基于约 70 万条 ChatGPT.com 对话（2025 年 10–12 月）：首轮提问最易触发网页检索与引用；Wikipedia 与 Reddit 稳居头部；引用多源并排、分布高度不均。文末归纳对 AEO 的三条落地启示。
生成式引擎优化（GEO）完整指南（Peec）：ChatGPT、Perplexity、Claude、Grok 等 AI 搜索正在重塑获客入口。本文由 Peec AI 梳理 GEO 框架：零点击趋势、基础模型与 RAG 的差异、四阶段战略、分月路线图与衡量方式，帮助你建立品牌在 AI 答案中的可见性与引用。

过去一年，SEO 和 GEO 社群中流行着一种理论：如果你想让内容更多地出现在 ChatGPT、Perplexity 等 AI 工具中，就应该向 AI 爬虫提供 Markdown 而非 HTML。这个逻辑听起来成立——Markdown 更干净、更有结构、更容易被 LLM 解析。一些知名网站报告称，切换到 Markdown 后效果有所提升。

但大多数这类说法都属于道听途说。

于是我们决定进行一次真正的对照实验。

简要结论：我们在六个网站的 381 个页面上进行了 A/B 测试。Markdown 页面在三周内多获得了约 1 次的中位数爬虫访问。有效果，但并非一些人预期的那种颠覆性改变。

核心要点

样本：6 个站点、381 页随机分组；对照组人类与爬虫均为 HTML，实验组爬虫看到 Markdown，人类始终 HTML（2026-01-19 至 02-08 追踪）。
总体：Markdown 组中位数每页约多 1 次访问，均值高约 16%，但差异主要由尾部高流量页面拉高；无法确信 Markdown 单独驱动了更多流量。
ChatGPT-User（约占实验爬虫流量 73%）对 Markdown 有一致的约 +20% 方向性信号，但统计上不显著；效果仍集中在高爬虫流量页面。
启示：与其赌格式，不如夯实可爬取、结构清晰、加载快的高质量内容；Profound 计划在 2026 年晚些时候复现实验。

一、我们测试了什么

我们与来自不同细分领域的六个真实网站合作，将 381 个页面随机分为两组：

对照组（189 个页面）：AI 爬虫看到的与人类访问者看到的内容相同（HTML 格式）
实验组（192 个页面）：AI 爬虫看到的是同一内容的干净 Markdown 版本

人类访问者始终看到 HTML，因此不存在任何用户体验影响。我们使用软件识别爬虫流量，并在传输时提供对应格式的内容。

随后，我们在三周内（2026 年 1 月 19 日至 2 月 8 日）追踪了爬虫访问量，追踪对象包括来自 OpenAI、Anthropic、Perplexity、Meta 和 DuckAssistBot 的爬虫，这些正是当今 AI 答案引擎背后的机器人。

二、结果：没有明确的赢家

如果 Markdown 真的是游戏规则的改变者，在这个样本下我们应该能看到。但我们没有。

从表面数字看，Markdown 组略微领先：每页多获得 1 次中位数访问，平均值高出约 16%。但关键在于：这 16% 的均值差异几乎完全由尾部的高流量页面拉高——那些本来就获得大量爬虫访问的页面在 Markdown 下有适度提升，而中位页面的增量几乎为零。

简而言之：我们无法确信 Markdown 真的驱动了更多流量。

三、ChatGPT 的信号

有一个例外值得关注：ChatGPT-User——当用户使用 ChatGPT 网络搜索功能时触发的爬虫。

ChatGPT-User 占本实验全部爬虫流量的约 73%，它是唯一一个始终显示出对 Markdown 的方向性优势（约 +20%）的爬虫。

但即便如此，这个信号在统计上也不显著。从分布来看，效果集中在本来就有高爬虫流量的页面——Markdown 组主要在第 60 百分位及以上拉开差距；中位数以下，两组几乎没有差异。

爬虫名称	流量占比
ChatGPT-User	73%
Meta/Facebook	20%
OAI-SearchBot	4%
ClaudeBot	2%
GPTBot	1%

四、为什么会是这样

我们的假设是：LLM 已经非常善于解析 HTML。谷歌 John Mueller 曾表示：「LLM 从一开始就在读取和解析普通网页上接受训练，可以认为它们处理 HTML 没有任何问题。」必应的 Fabrice Canel 也持相同观点，认为「AI 让我们非常擅长理解网页」，并质疑维护一套人眼永远看不到的爬虫专属内容的价值。

这些模型已经在数十亿个网页上接受了训练，而互联网的绝大多数内容都是以 HTML 格式发布的。OpenAI、Anthropic、Perplexity 等公司花了多年时间，优化其爬虫和内容提取管道，以大规模处理杂乱的、嵌套的、充满 JavaScript 的 HTML。

Markdown 在理论上更干净，但在实践中，这种干净程度能否转化为爬取优势——至少目前来看，答案尚不明确。

互联网正在向代理优先（Agentic-first）的体验演进，但我们还没有完全到达那个阶段。今天，大多数企业仍然发布 HTML。LLM 提供商是在争相抓取尽可能多互联网内容的企业，而他们正在抓取的，绝大多数是 HTML——他们为此而生。

五、对你的启示

专注于真正有用的内容

与其追逐技术技巧，不如专注于那个始终有效的事情：创作真正对目标受众有用的内容。

校准预期：这不是银弹

即使在最乐观的解读下，Markdown 的效果充其量也是微小的。我们可以自信地排除「大幅领先」的情形——如果 Markdown 能带来 40% 以上的爬虫流量增长，我们一定会检测到。数据表明，即使真实效果存在，也要小得多。

我们会重新验证这个问题

LLM 爬虫的行为正在快速演进，今天成立的结论，六个月后未必仍然成立。随着爬虫越来越智能、更多网站采用 Markdown、模型提供商不断优化内容偏好，这个公式可能会改变。我们计划在 2026 年晚些时候重新进行这个实验，并在结论有变化时及时更新指引。

六、方法论说明

本研究采用随机对照实验——因果推断的黄金标准。我们并非在比较两个不同的网站或不同的时间段，而是在同一网站内随机分配页面，以确保观察到的任何差异都源于实验处理，而非外部因素。

阶段	天数	日均提升
预实验期	10 天	2%
部署期（1 月 13 日–1 月 18 日）	6 天	12%
实验期	21 天	18%

爬虫流量本身波动较大。值得注意的是，即使在部署期（爬虫识别工具已部署但 Markdown 尚未提供），日均提升已达 +12%，这说明实验期间观察到的方向性优势中，有一部分可能只是预先存在的噪声，而非真正的 Markdown 效果。

另一方面，受限于样本量：要可靠地检测约 10% 的中等效果，每组需要更多页面。但换个角度——如果 Markdown 真的是游戏规则的改变者，我们一定会发现，因为我们的实验具备检测 40% 以上效果的统计功效，而这个效果没有出现。

七、结论

我们测试了「向 AI 爬虫提供 Markdown 能否带来更多爬虫流量」这一说法。数据不支持它——至少在能够证明其值得优先投入的规模上不支持。

如果你在优化 AI 可见性，请专注于基本功：高质量、可爬取的内容；清晰的结构；快速的加载速度；以及确保爬虫能够实际访问你的页面。你向爬虫提供的格式？很可能不是你真正需要撬动的那个杠杆。

至少目前如此。

结语

格式实验的意义在于校准预期：在六个站点、三百余页的随机对照下，Markdown 专属交付并未呈现颠覆性爬虫增益；把精力放在内容与可访问性上，仍是更稳健的优先级。

来源：tryprofound.com（Brandon Punturo，《Markdown 与 HTML 对 AI 爬虫的影响实验报告》；本站中文整理）。

返回博客列表