GEO优化幻觉：为什么大模型看起来总是“偏爱”固定的网站或账号？

更新时间：2026-03-24 14:17

作者：小星星

浏览：次

文章类型：原创

我做GEO培训这两年，其实有不少学员都是好奇宝宝，对GEO相关的知识刨根问底过。比如问过我一个很有意思的现象，说一些行业大模型怎么老是抓那几个网站甚至是那几个自媒体账号。你只要多用几次大模型的联网搜索功能，就会慢慢察觉到：有些东西，好像确实开始“重复”了。

比如你问：上海XX公司推荐，YY厂商推荐，ZZ品牌哪个好，你多问几次，换几个问法，你会发现：答案在变，但“来源”没怎么变。甚至有时候你会有一种很强烈的感觉：是不是模型就认那几个网站？是不是就喜欢那几个账号？再往深一点想，就很容易走到一个结论：这是不是跟以前SEO那套“蜘蛛资源分配”很像？是不是有些网站，被分了更多“蜘蛛抓取额度”？如果把这件事拆开看，会发现一件更有意思的事：它确实像“分配”，但本质上不是分配。

一、大模型，其实从来没有“上网”很多人对大模型有一个默认认知：它在帮你“上网查资料”。但这个理解，其实是错的。准确一点说：大模型本身，不抓网页。它不是爬虫，不会像搜索引擎那样：跑全网，抓页面，建索引，原因：如果让一个生成模型去干爬虫的活，那这个系统基本就废了，又慢又贵，还可能不稳定。真正发生的事情，其实是另一套流程。当你问一个需要联网的问题时，背后是这样一条链路：模型先把你的问题“翻译”成搜索关键词，然后调用搜索引擎的API（比如必应、百度、搜狗等）搜索引擎返回一小撮结果（比如前几十条）模型再从里面挑几个链接去读最后生成答案。

你注意一个细节就够了：模型不是面对整个互联网，它只面对“前几十条结果”。到这里，其实答案已经呼之欲出了。你为什么总看到那几个来源？不是因为模型选了它们，而是因为在模型“能看到的世界里”，本来就只剩它们了。也就是说这事搜索引擎帮他们选好了，大模型只是忠实处理搜索引擎返回的结果罢了。比如某大模型A目前使用的是必应（Bing）的搜索API具体来说，在A模型的联网搜索功能中，后端调用的正是必应提供的通用网页搜索接口。这意味着：A模型拿到的搜索结果，其排序、收录范围、权重倾向都遵循必应搜索引擎的逻辑。必应自身对某些高权重域名（如知乎、百家号、CSDN、政府/学术站点等）的偏好，会直接体现在返回给A模型前几条结果中。

如果必应没有收录某个网站，或者将其排在很靠后的位置，A模型也就无法看到或使用其中的信息。这也印证了大家之前观察到的“爱抓那几个固定网站”的现象：本质上反映的是必应搜索结果的特征，而不是A模型自身有选择偏好。当然，在调用过程中，A模型会通过多轮查询重构、意图拆解等方式，尽可能在必应能提供的范围内，获取更全面、更相关的信息。但“搜索源”这个天花板，确实是由必应决定的。豆包则是依托字节跳动自身的搜索技术体系实现，豆包用到的联网检索能力，基于字节跳动自研的搜索引擎（ByteDance Search），是字节内部统一的搜索技术基建，和今日头条、抖音 APP 里的搜索服务同源、同技术体系。它并不是市面上大家熟知的百度、谷歌、必应这类第三方独立搜索引擎，也没有公开的独立网页版入口，是专门为 AI 场景优化、内部集成的检索服务，会从全网公开网页、权威资讯、百科、公开数据等渠道抓取并实时更新信息，再经过模型处理后返回给用户。

二、“偏爱”，其实是被放大的排序，很多人会把这个现象理解成：模型在偏爱某些网站。但更接近事实的说法是：模型在放大搜索引擎的排序结果、搜索引擎做的事情。本质是在海量信息里，快速找出“最可能有用的那几条”。为了做到这一点，它会用很多信号：权威性（是不是官网、是不是大媒体）相关性（匹不匹配你的问题），用户行为（别人点不点、停留多久），链接结构（有没有被大量引用）这些东西叠在一起，会自然产生一个结果：头部永远是头部。在搜索引擎里，你还能翻页，还能往下看。但到了大模型这里：直接帮你“截断”了。只取最前面那一小部分，然后再压缩成答案。于是你看到的，就变成了：个被“极度压缩”的互联网。

三、为什么总是那些自媒体账号？这个点，其实很多人已经察觉到了，但说不清原因。你会发现：有些平台、有些账号，出现频率异常高。这背后有点像玄学，又不是玄学。基本是三个原因叠加：

平台本身有生态权重：如果搜索来自某个平台体系，它天然更容易把“自己体系内的内容”排前面。这个在任何搜索系统里都存在。不是黑箱，是结构。这些内容更“适配搜索”：很多自媒体其实做了一件很重要的事：它们比官网更懂SEO。标题、关键词、结构、更新频率，全都更“标准化”。结果就是：更容易被排到前面。同质化内容只会留下“代表作”：现在很多内容，本质上是同一份信息的不同版本。搜索引擎会自动做一件事：只留下“最像源头”的几个。其他的，全被折叠掉。最后大家看到的，就成了：永远是那几家、永远是那几个号。

四、模型，其实又“补了一刀”，如果只是搜索引擎，还没这么极端。真正把这个现象放大的，是模型自己的限制。最关键的一点就是：它读不了太多内容。哪怕给它20个结果，它可能也不会全看。现实是：前3个 → 基本必看，前5-10个 → 有概率，后面的 → 可能消失，这就导致一个很现实的结果：排序差一点，等于不存在。所以想做到“专家级”的GEO高手，最好还需要懂一点SEO。再加上有时候模型甚至直接用“摘要”，用户看到的信息，其实是：被搜索引擎处理过一遍，再被模型处理一遍。

总结来说：大模型遵循的是“先粗筛（读标题/摘要），后精读（选Top 前的几条全文）”的策略。大模型并不是搜索引擎结果的“全盘接收者”，而是一个“带筛选器的精读助手”。这个筛选器的存在，虽然提升了效率和相关性，但也可能加剧了用户所观察到的“信息来源单一化”的问题。这不是失真，但一定是“收缩”的。这里有小伙伴们可能有疑问，那大模型调取联网搜索时到底是怎么搜索的？与普通人用搜索引擎搜索有什么不同？实际上是会根据用户的问题拆解成多个搜索词或者是组合搜索。比如；XX公司知名，XX品牌价格，XX公司排行榜，XX设备半导体行业，也可能发起多轮搜索。比如用户提问：我是一个刚毕业的学生，预算3000，我需要买1个手机，请帮我推荐一个手机品牌型号。

豆包发起了搜索，搜了6个关键词。

搜的6个关键词分别如下；3000 元性价比手机推荐，学生党 3000 元手机选购，2026 年 3000 档高性价比手机，16+512G 3000 元手机型号，大电池续航 3000 元手机，骁龙 8 系 3000 元档机型。

大模型调起联网搜索其实很复杂，以上只是一个举例，是一个冰山一角。再深一些，我自己也不知道，大家都是一个普通老百姓，事实上也并不需要了解那么深。

五、它像“蜘蛛资源分配”，但其实不是，回到最开始那个问题。很多人会问：这是不是跟以前SEO的“抓取额度”一样？结论是：现象很像，但机制完全不同。传统搜索引擎是：我决定抓谁、抓多少这是“资源分配”。而大模型是：我只看别人已经排好的结果，这是“结果消费”。所以大模型没有在后台说：给A网站多一点曝光给B网站少一点机会它只是：每次都在同一个“Top结果池”里选，是搜索引擎给他分配好了，因为大模型只能看见这些。

六、不是“偏爱”，而是“收缩”，我觉得，这件事真正值得讨论的点，不是偏不偏爱。而是：信息被进一步收缩了。以前你用搜索引擎：你还能翻页，还能乱点，还能跑偏。但现在用大模型：它直接给你一个“整理好的答案”。你很容易就停在这里。这件事的本质是：信息入口，从“探索式”变成了“结论式”。这才是变化最大的地方。

七、这不是AI的问题，很多人会把这个现象归因到AI本身。但如果你把链路拉长一点看，就会发现： AI只是最后一环。真正决定你看到什么的，是：搜索引擎的排序，内容生态的结构，用户行为的数据，AI做的，只是：把这一切，再压缩一遍，交给你。所以你看到的“总是那几个来源”，本质上不是模型在偏爱谁。而是：整个互联网，本来就已经在偏向它们了。

当然，说到这里，很多人可能会产生一种错觉：做GEO，其实就是在做SEO。但这个理解，对，也不完全对。从底层逻辑来看，SEO解决的是“被发现”的问题：你连搜索引擎都进不去，连基础索引都没有，大模型自然也不可能引用你。只有先通过SEO进入信息池，才有资格进入大模型的“筛选池”。

但GEO做的，是在“被发现之后”的那一步：如何被引用、被推荐。所以两者的关系更像是：SEO决定你有没有入场券，GEO决定你能不能上桌。必应官方发布的GEO优化指南当中也提到了SEO、AEO、GEO的关系。