如何配置自动采集、自动更新网站数据

简数采集平台通过设置 “定时采集” + “重复数据跳过” + “自动发布” 功能可实现同步更新数据,即定时检测采集源网站是否有内容更新,采集并发布新内容。

定时采集功能详情:定时采集配置;

自动发布功能详情:采集后自动发布配置;


基本流程:

1. 采集已有的全部数据

先设置采集已有的全部列表页中的数据;(下面以 “大众养生-饮食” 模板为例,假设共100页)


2. 采集更新数据

待已有的全部数据采集完成后,现只需定时采集更新的内容,用户一般会在 “启动 | 定时采集“ 处设置重复数据跳过来实现。

上述操作可行,但有个技巧可大幅提高同步更新采集效率:

判断是否重复数据,系统是遍历配置采集的列表页中的文章与已采集入库的文章中有无相同标题,如果数据量多会影响采集速度。

用户可通过观察采集源网站的内容更新频率和数量,估算新内容会显示在列表页的前几页,并在 “采集起始网址” 处设置只采集前几页的内容,减少系统遍历列表页页数来提高采集效率。

如下例网站新内容12小时更新一次,且一般显示在列表页的前两页,则可配置只采集前两页列表的文章。

(如果没有这一步,按原来的设置,系统要遍历100页列表页判断是否有重复数据,现只需遍历2页列表页)