教程

ChatGPT 如何从网络获取引用来源（Profound）

基于约 70 万条 ChatGPT.com 对话（2025 年 10–12 月）：首轮提问最易触发网页检索与引用；Wikipedia 与 Reddit 稳居头部；引用多源并排、分布高度不均。文末归纳对 AEO 的三条落地启示。

基于约 70 万条 ChatGPT.com 对话（2025 年 10–12 月）：首轮提问最易触发网页检索与引用；Wikipedia 与 Reddit 稳居头部；引用多源并排、分布高度不均。文末归纳对 AEO 的三条落地启示。

Markdown 与 HTML 对 AI 爬虫的影响实验报告（Profound）：六个站点、381 页的随机对照：向 AI 爬虫单独交付 Markdown vs 与人类一致的 HTML。三周追踪显示中位数增益有限，均值差异靠高流量页拉高；ChatGPT-User 有约 +20% 方向性信号但不显著。文末给出 GEO/AEO 预期校准与方法说明。
AI搜索优化：获得AI引用的完整指南：当 AI 概述出现时，网络搜索的自然点击率下降了 61%。更重要的是：AI 搜索流量转化率为 14.2%，而谷歌有机流量为 2.8%——AI 搜索流量的转化率比谷歌自然流量高出约 4 至 6 倍。本指南端到端覆盖 AI 搜索优化的商业价值、框架、策略与衡量方法，以数据为基础而非炒作。
生成式引擎优化（GEO）完整指南（Peec）：ChatGPT、Perplexity、Claude、Grok 等 AI 搜索正在重塑获客入口。本文由 Peec AI 梳理 GEO 框架：零点击趋势、基础模型与 RAG 的差异、四阶段战略、分月路线图与衡量方式，帮助你建立品牌在 AI 答案中的可见性与引用。

当 ChatGPT 回答一个问题时，它有时会向网络发起检索，以研究者的方式标注来源。对于出版商、品牌和营销人员来说，这创造了一个新的争夺场所：谁会被引用，以及为什么？

本研究分析了约 70 万条来自美国英语用户在 ChatGPT.com 上的对话（2025 年 10 月至 12 月），以理解 ChatGPT 如何从网络获取来源。研究发现揭示了一种新的注意力经济——答案引擎优化（AEO）的规则正在被改写，而赢家往往出人意料。

核心要点

第一轮提问至关重要。用户的开场问题会触发网络搜索；后续追问很少会触发。第 1 轮触发引用的概率是第 10 轮的 2.5 倍，是第 20 轮的近 4 倍。如果你想被引用，就必须赢得「第一个问题」——那个开启研究旅程的查询，而不是后续的澄清性追问。
Wikipedia 是默认的知识基础层（约六分之一的被引用对话中都有它）。不要试图超越它，而是要成为 Wikipedia 之后的那个来源——回答它无法回答的问题。做好 Wikipedia 卫生（保持关键词条的准确性和充分引用），并专注于出现在正确的领域集群中：引用往往成群出现，因此要与你的话题领域内已受信赖的域名（如监管机构、顶级期刊、主要机构）稳定共同出现，而不只是盯着自己的网站。
来源成群旅行。ChatGPT 不会只挑一个赢家，而是会把竞争者并排引用。了解你的引用邻居，至关重要。

三、搜索集中在早期，随后迅速减少

约 18% 的 ChatGPT 对话会触发至少一次网络搜索，这一比例在三个月中保持稳定。但搜索发生的时机才是真正的关键所在。

为什么搜索会随轮次减少？我们的假设是：开场问题通常需要事实性依据——「什么是 X？」、「Y 是如何运作的？」、突发新闻等。而后续轮次往往是澄清、深挖，或不需要新鲜网络数据的创意任务。

对策略的启示：对话中的第一个问题是黄金位置。要针对那些开启研究旅程的查询进行优化，而不是后续延续性的问题。

提问轮次	带有引用的轮次占比
第 1 轮	12.6%
第 2 轮	8.98%
第 3 轮	7.53%
第 5 轮	6.2%
第 10 轮	4.5%
第 20 轮	3.0%

四、ChatGPT 不会只依赖单一来源

在包含引用的对话中：

平均每次对话约 6 个独特引用来源（10 月至 12 月呈上升趋势）
当某一轮次包含引用时，平均每轮 4 个独特引用来源
66% 的被引轮次包含 1 至 4 个独立来源

ChatGPT 会进行多角度交叉验证——在发起搜索时，会同时从多个来源提取信息，而非依赖单一权威。引用数量呈上升趋势，可能反映了随时间推移查询复杂度的提升，或模型引用行为的优化。

对策略的启示：被引用一次并不能保证显著曝光。你是在与多个来源争抢答案中的「声音份额」，而不是独占一个答案。

五、引用经济：广泛但不均衡

指标	数值	通俗解释
前 10 名集中度	12%	前 10 个域名只占全部引用的 12%
基尼系数	0.8	高度不均衡（0 = 完全平等，1 = 赢家通吃）

没有单一来源能主导一切，但分布高度不均衡。少数域名占据不成比例的大份额，而数十万个来源只能瓜分剩余的极小比例。

解读：引用经济是一个「广泛但浅薄」的市场。没有绝对的主导者，但分布极为不均（基尼系数高）。人人都有机会，但很少有人能赢得大份额。

六、谁赢得了引用：头部来源

域名	占全部引用的比例	在被引用对话中出现的比例
Wikipedia	5%	18%
Reddit	3%	13%
Reuters（路透社）	1%	4%
NIH（美国国立卫生研究院）	1%	4%

Wikipedia 出现在近六分之一的有引用对话中，是事实性基础知识的默认来源——ChatGPT 首先求助于它来建立基础事实。

对策略的启示：权威有不同的形式。Wikipedia 赢在广度与中立性；Reddit 赢在真实性与具体性。

七、共引簇：来源如何成群出现

来源按专业领域形成集群。通过分析至少包含一条引用的对话，可以看出哪些来源经常被同时引用（共引）。

各行业的典型共引组合包括：个人理财领域的 NerdWallet + The Points Guy（共引率 14%）；科技新闻领域的 The Verge + TechRadar（10%）；健康领域的 MDPI + NIH（7%）。

共引率的定义：在同时引用了任意一方的对话中，两者同时被引用的比例。

对策略的启示：了解你的引用邻居。如果你是招聘求职网站，你会与 Glassdoor 和 Indeed 在同一对话中被比较；如果你是旅行品牌，你可能与 Kayak 和 Expedia 并排出现。你的内容策略应当考虑到竞品在说什么——因为 ChatGPT 两者都在读。

八、对 AEO 策略的启示

赢得第一个问题。研究旅程开始时的查询，是引用最集中的地方。「什么是」「如何」「最好的方式」——为用户在明确知道自己想要什么之前所提出的问题构建内容。

成为 Wikipedia 之后的那个来源。你无法在 Wikipedia 的地盘上打败 Wikipedia，但你可以做下一步：更深入的分析、最新的数据、它无法提供的专家意见。

占领你的集群。如果你是 B2B 软件公司，问题不是如何打败 Wikipedia，而是如何成为与你的目标客户已经信赖的分析机构和评测网站并排出现的那个来源。

九、方法论说明

研究范围：美国英语用户在 ChatGPT.com 上的对话，2025 年 10 月至 12 月
样本规模：约 73 万条至少包含一条网页引用的对话
注意事项：Wikipedia 和 Reddit 因在所有集群/行业中的存在规模过大，已从共引配对分析中排除
集群标签（如「汽车目录」「旅行」等）是研究团队根据域名功能自行命名的描述性标签，并非来自外部分类体系

结语

ChatGPT 的引用行为说明：时机（首轮查询）、默认知识层（如 Wikipedia）与共引簇共同塑造了谁在答案中获得曝光。把内容与「开场问题」对齐，并在正确的信任集群中与邻居共存，比单打独斗更接近可测量的可见性。

来源：tryprofound.com（Brandon Punturo，《ChatGPT 如何从网络获取引用来源》；本站中文整理）。

返回博客列表