全站文档自动采集:一个网址,全站搞定

  • 简数采集器可快捷实现帮助文档全自动化采集,只需输入一个网址,即可自动沿页面内链接连续采集、遍历抓取整套文档内容。同时支持结构化数据输出,可直接用于 AI 知识库搭建、AI 智能体训练等场景。体训练等场景。
  • 本方案特别适用于采集各类网站的文档资料,如:帮助中心、开发手册、使用教程、用户操作指南等。

只需三步操作,轻松完成文档采集:

1. 创建并配置采集任务

此步骤配置单网页内容采集规则(标题、正文等),作为后续循环采集整套文档的 “样板” 。

1)新建任务

在简数控制台,点击【+创建采集任务(高级模式:表格|零散|Json |无限循环)】 采集模式选择【详情页(单网页:零散、批量或无限循环)】 填写任务名称,输入文档的任意一个网址(如 https://doc.keydatas.com/) 保存,进入详情提取器配置采集规则。



2)配置采集规则

在详情提取器的可视化窗口,只需用鼠标点选目标内容,即可简单快捷完成采集规则配置,完全不用编写代码!

可根据需求自定义添加、修改或删除字段,常用字段有:title(标题)、content(正文)、pubDate(时间)、tag(标签)等。


详细使用说明可查看《详情提取器-内容采集规则配置教程》。

2. 设置无限循环采集,遍历整套文档

开启无限循环采集功能:系统在采集详情页内容时,会自动提取页面中的关联链接(如"上/下一篇" 或 "上/下一页"),并将其加入采集队列,以此实现一页接一页的循环采集,直至整套文档全部采集完成。

1)启用无限循环采集功能

在详情页提取器,打开【无限循环启用配置】,勾选【启用无限循环采集】,其余配置通常保持默认即可,保存。


2)选取循环采集的关联链接

点击开启【无限点选开关】,在可视化窗口中,点选页面内的关联链接区域(如"下一篇" 或 "下一页"等按钮),保存。


3)启动采集并查看结果

返回任务基本信息页,点击【启动采集】,采集过程中可关闭页面与电脑,简数全程云端运行无需挂机。

采集结果如下图所示:



3. 数据导出与场景应用

简数提供多种数据导出与推送方式:开放接口API(JSON格式)自定义Http接口数据库各类CMS网站系统(wordpress、zblog等)、以及导出文件(Excel、Sql、Word、Txt等),方便用户将数据应用到各种场景。

AI 知识库应用示例:将采集的文档数据导出为 TXT 文件,上传至扣子(Coze)等 AI 平台的专属知识库中,即可直接供 AI 智能体调用。