9大AI“取材习惯”拆解
| 公众号摘要|同样是联网搜索,ChatGPT、Google Gemini、Perplexity、Claude、Kimi、千问获取和引用内容的方式并不完全相同。有的依赖传统搜索排名,有的偏爱能直接回答问题的页面,有的重视数据出处,还有的擅长读取PDF、长文档、图片和视频。外贸企业做GEO之前,首先要弄清楚:不同AI到底喜欢从什么内容里找答案。 |
现在,一些海外采购商找供应商,已经不再逐个打开Google搜索结果了。
他们会直接问ChatGPT:
| Recommend five reliable control cable manufacturers in China. |
几秒钟后,AI就列出了几家公司。

对采购商来说,效率提高了。
但对工厂来说,一个更现实的问题出现了:
| 为什么AI推荐了你的同行,却没有推荐你? |
是你的工厂规模不够大吗?不一定。
是你的网站没有排在Google第一页吗?也不完全是。
很多被AI提到的企业,未必是行业规模最大的,也未必所有关键词排名都很好。
但它们往往有一个共同点:
| 公开信息更清楚、更具体,也更方便AI读取、验证和引用。 |
我最近集中整理了ChatGPT、Google Gemini、Perplexity、Claude、Bing Copilot、千问、Kimi、百度AI搜索、豆包和DeepSeek等产品公开披露的搜索与内容处理机制。结果发现,不同AI虽然都在“联网搜索”,但取材习惯并不完全一样。
先说明:什么叫AI的“取材习惯”?
目前,没有任何一家大模型公司公开完整的网站名单、引用权重和排序算法。
所以,本文所说的“取材习惯”,主要来自三个方面:
- 平台公开的搜索爬虫和联网检索机制;
- 平台展示的网页、文档和多模态处理能力;
- 根据常见搜索表现总结出的内容适配方向。
它不是所谓的“AI排名公式”,更不能理解为:只要按照某个格式写,AI就一定会推荐你。
GEO真正能做的,是提高企业被发现、读懂、验证和引用的概率。
一、AI获取网站内容,主要有三条路径
1. 模型训练阶段接触过
大模型训练时,可能使用公开网页、书籍、论文、代码、图片、视频和授权数据。但企业通常无法确认:
- 自己的网站有没有进入训练数据;
- 哪些页面被使用过;
- 模型记住了多少;
- 数据什么时候更新;
- 回答问题时是否会提到你。
所以,外贸企业不能把GEO全部押在“进入模型训练库”上。
2. 进入AI或搜索引擎的索引
部分AI会通过搜索爬虫或搜索引擎索引发现网页。例如:
- ChatGPT有面向搜索的网页抓取机制;
- Google AI建立在Google搜索体系之上;
- Bing Copilot依赖Bing搜索;
- Perplexity和Claude也有面向搜索或用户访问的网页工具。
这种方式与传统SEO联系最紧密。
3. 用户提问后临时读取网页
AI回答某个问题时,也可能临时打开网页,提取正文,再组织答案。
所以,企业不应该只问“AI有没有爬过我的网站”,更应该问:
| 当采购商提问时,AI能不能找到、打开并读懂我的页面? |
二、9大AI“取材习惯”总表
这张表建议收藏。
| AI工具 | 更依赖什么 | 更容易使用的内容 | 外贸企业重点 |
| ChatGPT | 搜索结果、公开网页、可直接读取的页面 | 能直接回答问题的采购指南、对比、FAQ | 把答案写清楚,减少空泛宣传 |
| Google Gemini / AI Overview | Google搜索索引与质量系统 | 已收录、有搜索基础、有原创经验的内容 | SEO基础、主题内容群、原创数据 |
| Perplexity | 多来源搜索与引用 | 有结论、有数据、有出处的页面 | 参数、标准、检测依据、来源说明 |
| Claude | 搜索、网页访问、长上下文 | 完整、严谨、有条件和边界的内容 | 技术指南、白皮书、复杂选型 |
| Bing Copilot | Bing搜索索引 | 标题清楚、表格明确、更新及时的页面 | Bing收录、IndexNow、表格和FAQ |
| 千问 | 问题改写、多轮和多源检索 | 中英文名称完整、图片视频配合的内容 | 产品别名、应用词、多语言资料 |
| Kimi | 网页提取、长文本和文档 | 容易转成纯文字、结构清楚的内容 | HTML正文、PDF、技术文档 |
| 百度AI搜索 | 百度搜索体系和中文内容 | 中文网页、企业信息、新闻、图片视频 | 中文主体信息和中文产品介绍 |
| 豆包 / DeepSeek | 受版本、联网工具和具体产品影响 | 网页、文档及多模态公开资料 | 先做好通用SEO和内容基础 |
从这张表可以看出,做GEO不是给每个AI分别写一套文章,而是把同一套企业资料做得更完整,让不同AI都能找到适合自己的信息。
三、模拟测试:同一个采购问题,不同AI会怎样寻找答案?
| 说明:下面是根据各平台公开机制和常见使用表现设计的模拟案例,用于展示不同AI可能采用的取材路径,不代表某次真实搜索结果。正式发布实测数据时,应以当天实际搜索和截图为准。 |
假设一位采购商提出:
| Recommend reliable push pull control cable manufacturers in China. |
| AI工具 | 模拟搜索表现 | 更可能采用的来源 |
| ChatGPT | 先解释如何判断工厂可靠性,再列出几家企业 | 企业官网、供应商指南、第三方公司介绍 |
| Google Gemini | 将问题拆成厂家、OEM能力、质量认证和应用领域分别搜索 | Google已收录的产品页、文章、目录和视频 |
| Perplexity | 直接给出供应商名单,并为每家公司附带引用来源 | 官网、B2B目录、企业数据库、行业媒体 |
| Claude | 先提醒“可靠”需要根据认证、产能和应用场景判断,再给出候选企业 | 技术页面、公司能力说明、长篇采购指南 |
| 千问 | 同时扩展“控制拉索、推拉索、Bowden Cable”等中英文名称 | 中英文官网、企业平台、图片和视频 |
| Kimi | 读取企业介绍、PDF目录和产品详情后进行归纳 | 长文本页面、PDF产品手册、技术文档 |
这个模拟案例反映了一个很重要的问题:不同AI不是简单地搜索同一个关键词,然后复制第一页结果。它们可能会改写问题、拆分子问题、搜索产品别名、对比不同来源、读取技术文档,并寻找能够支持结论的数据。
所以,一个只写着“我们是专业制造商”的首页,很难满足所有AI的取材需求。
四、ChatGPT:更喜欢“可以直接放进答案里”的内容
假设采购商问:
| How do I choose a reliable FRP grating manufacturer in China? |
ChatGPT需要的不是一个只写着“We are a professional FRP grating manufacturer.”的企业首页,而是能够直接回答采购问题的内容。
- 如何判断工厂是否可靠;
- 采购前应该检查哪些参数;
- 不同树脂类型有什么区别;
- 如何验证承载能力;
- 工厂应该提供哪些报告;
- OEM订单打样需要多长时间。
ChatGPT的核心习惯
| 它更想找到一段可以直接回答用户问题的内容。 |
- 一个小标题回答一个问题;
- 小标题下面直接给结论;
- 参数和事实放进网页正文;
- 重要信息不要全部藏在图片里;
- 减少“高品质、专业、服务全球”等空泛表达。
不要只写“Fast delivery.”,可以写得更具体:“Standard samples are normally completed within 7 days, while the typical lead time for bulk orders is 20–30 days.”第二种写法更容易被准确提取。
五、Google Gemini:更相信搜索体系已经认可的内容
Google的AI Overview和AI Mode建立在Google搜索体系之上。
所以,Google GEO的基础仍然是Google SEO。如果页面长期没有被Google收录,或者网站整体质量较低,就很难指望Google AI稳定引用。
- 产品主页面;
- 材质对比;
- 参数说明;
- 选型指南;
- 安装方法;
- 测试标准;
- 应用场景;
- 实际案例;
- 常见问题。
Google的核心习惯
| 它更喜欢已经有搜索基础,并且能覆盖多个相关问题的网站。 |
- 工厂真实测试;
- 一手数据;
- 实际项目;
- 生产经验;
- 原创图片和视频;
- 技术人员的判断。
Google AI还可能把复杂问题拆成多个子问题分别搜索。因此,一个产品最好形成完整的内容群,而不是只做一个孤立页面。
六、Perplexity:不仅要答案,还要找到出处
Perplexity的产品特点之一,就是为回答附上来源。
因此,它不只是要找到答案,还需要找到适合标注出处的页面。
- 产品参数;
- 材料性能对比;
- 行业标准解释;
- 检测报告说明;
- 市场数据分析;
- 不同型号对比;
- 选型表。
Perplexity的核心习惯
| 它更喜欢有明确结论、具体数据,而且可以追溯来源的内容。 |
- 温度范围;
- 材料等级;
- 产品公差;
- 测试时间;
- MOQ;
- 打样周期;
- 标准编号;
- 数据更新时间。
页面最好同时提供数据来源、测试方法、标准名称、审核人员和原始技术资料。被引用只是第一步,用户打开来源页面后能不能建立信任,才决定最终有没有询盘。
七、Claude:更关注条件、边界和完整上下文
Claude比较适合处理长文档、复杂解释和多步骤分析。
它不仅想知道结论,还会关注结论在什么条件下成立、有没有例外、适用范围是什么,以及存在哪些限制和风险。
- 技术白皮书;
- 长篇选型指南;
- PDF技术手册;
- 复杂产品对比;
- 行业标准说明;
- 风险与限制;
- 故障排查文档。
Claude的核心习惯
| 它不满足于一句结论,更重视完整、严谨和有边界的解释。 |
- 适用条件;
- 对比对象;
- 成本因素;
- 选择边界。
例如,不要简单写“Vinyl ester resin is always the best choice.”更专业的表达应说明它在高腐蚀环境中的优势,同时指出在腐蚀较弱或预算有限的项目中,其他树脂也可能足够。
八、Bing Copilot:偏爱结构清楚、更新及时的页面
Bing体系比较强调清楚的小标题、参数表格、FAQ、案例和数据、观点依据、页面更新时间,以及文字、图片和视频的一致性。
适合Bing Copilot的内容结构包括产品定义、参数表、优缺点、应用场景、型号对比、FAQ和更新时间。
- Bing Webmaster Tools;
- XML Sitemap;
- IndexNow;
- HTML参数表;
- 旧内容更新;
- 清晰的FAQ;
- 页面修改时间。
Bing的核心习惯
| 它更容易理解可以快速扫描、比较和更新的页面。 |
产品标准、交期和参数发生变化后,要及时更新。旧信息长期不修改,很容易影响AI回答准确性。
九、千问:喜欢改写问题,再进行多源搜索
千问的联网检索不一定只搜索用户输入的原句。它可能会先改写问题,再从多个角度查找资料。
例如用户询问“中国有哪些靠谱的控制电缆厂家”,系统可能继续寻找中国控制电缆制造商、Push Pull Cable Manufacturer China、Mechanical Control Cable Supplier、OEM Control Cable Factory等表达。
- 正式产品名称;
- 行业常用名称;
- 英文名称;
- 产品简称;
- 应用设备;
- 材料名称;
- 定制类型。
千问的核心习惯
| 它更重视产品名称、同义词、应用词和中英文信息之间的关联。 |
- Bowden Cable;
- Push Pull Cable;
- Mechanical Control Cable;
- Control Wire;
- Throttle Cable;
- Remote Control Cable。
如果网站只使用其中一个名称,AI能够建立的产品关联就会比较弱。
十、Kimi:页面转成纯文字后,仍然要看得懂
Kimi比较适合读取网页、长文档和PDF。网页被提取后,通常会转换成更适合模型处理的文字结构。
这会带来一个现实问题:页面看起来漂亮,不代表AI读取起来清楚。
- 正文完全通过复杂脚本加载;
- 页面打开后先出现全屏弹窗;
- 核心内容藏在轮播图里;
- 参数全部做成图片;
- 页面文字顺序混乱;
- 手机端缺少正文;
- 只有PDF下载按钮,没有网页说明。
Kimi的核心习惯
| 去掉图片、动画和样式后,正文仍然清楚,才是真正的AI友好。 |
- 长篇技术文章;
- 清晰的HTML正文;
- 可复制的PDF;
- 产品手册;
- 分层明确的文档;
- 有标题和表格的说明页面。
检查网站时,可以把页面正文复制到纯文本工具中,看看内容顺序是否仍然合理。如果纯文字版本只剩下一堆混乱的按钮、标题和参数,AI也很难准确理解。
十一、百度、豆包、DeepSeek:公开规则较少,怎么办?
和Google、OpenAI、Anthropic相比,部分国内AI公开的网站抓取规则还不够完整。
所以不能确定地宣称:
- DeepSeek主要使用哪个搜索引擎;
- 豆包一定优先抖音内容;
- 百度AI只参考百科;
- 某个B2B平台是固定训练数据源。
实际结果还会受到模型版本、是否开启联网、官方应用还是第三方应用、接入了什么搜索工具以及用户所在地区等因素影响。
但可以确定的是,国内AI正在加强对中文和英文网页、PDF和长文档、图片、视频、字幕、百科和结构化信息、实时搜索结果等内容的处理。
企业没必要为每个国内AI分别制作一套内容,先把通用基础做好:
- 中英文公司名称一致;
- 产品名称和别名完整;
- 网站能够正常收录;
- 页面正文可以读取;
- 图片和视频有文字说明;
- PDF能够复制;
- 官网和第三方平台信息一致。
十二、B2B外贸企业应该怎样调整内容?
1. 每个核心产品建立独立页面
不要把几十种产品全部堆在一个Products页面里。每个重点产品都要有独立的名称、参数、应用和FAQ。
2. 把重要信息写进网页正文
包括材质、尺寸、MOQ、打样周期、交期、定制范围、检测方法和执行标准,不要让这些信息只存在于图片或PDF中。
3. 围绕采购问题写内容
不要只围绕关键词写文章,更应该回答怎么选、怎么比、怎么验、怎么定制、有什么风险,以及出问题怎么处理。
4. 增加真实经验和一手数据
例如设备数量、生产能力、测试数据、项目案例、生产流程、常见问题和技术人员观点。
5. 同步建设图片、视频、字幕和PDF
同一项工厂能力,可以制作成官网页面、技术文章、YouTube视频、短视频、产品图片和PDF手册。
6. 保持全网信息一致
统一中英文公司名称、品牌名称、官网域名、公司地址、主营产品、企业简介和联系方式。官网、LinkedIn、YouTube、B2B平台和行业目录不要互相冲突。
写在最后
现在网上很多人把GEO讲得非常复杂。有人说必须做llms.txt,有人说必须批量生产几千篇AI文章,还有人声称,只要把内容提交到某个平台,就能进入ChatGPT或DeepSeek的数据库。
但研究完这些主流AI公开的搜索和内容处理机制后,会发现真正重要的事情并没有那么神秘。
Google更看重已经收录、有真实价值的内容。
ChatGPT更需要能够直接回答问题的内容。
Perplexity更喜欢有数据、有出处的内容。
Claude更关注完整、严谨和有边界的解释。
Bing更容易理解结构清楚、更新及时的页面。
千问更重视问题改写、中英文名称和多源检索。
Kimi更适合读取结构清楚的长文本和文档。
百度、豆包和DeepSeek则提醒企业,不要只依赖一种内容形式。
说到底,AI真正需要的并不是更多营销口号,而是:
| 公开、清楚、具体、可信,并且方便机器读取的企业信息。 |
以前外贸网站主要解决的是“客户能不能找到我”,接下来还要解决:
| AI找到我以后,能不能真正读懂我? |
业务承接
我最近也在按照这套逻辑,帮助制造业和B2B外贸企业检查网站在ChatGPT、Google、Perplexity、DeepSeek等平台中的可见度。
很多网站并不是完全没有被AI发现,真正的问题往往是:
- 企业身份不够清楚;
- 产品页面内容太空;
- 参数和检测依据不足;
- 重要信息全部藏在图片和PDF里;
- 官网和第三方平台信息不一致;
- AI找到页面以后,也无法形成准确引用。
相比一开始就批量生产大量内容,先把这些基础问题查清楚,通常更有效。
文末互动
可以现在打开ChatGPT、DeepSeek或千问,输入:
| 推荐几家中国可靠的“你的核心产品”制造商。 |
看看AI是否提到了你的公司。如果没有,再看看它推荐了哪些同行、引用了哪些页面。
很多时候,差距并不在工厂规模,而在于:
| 你的同行已经把自己说清楚了,而你的网站还没有。 |
