采集技巧:如何不采集非文章页面的数据

在列表页提取器选择要采集的网址链接时,中间夹杂着一些多余的页面链接,例如栏目链接、广告链接和标签链接等,要怎么解决?

可通过手写Xpath值来精确选择链接区域来解决。

但有个更简单的技巧,就是在详情页提取器使用 “采集结果不得为空” 功能,因为这些多余的页面结构排版和常规的文章页面都不一样,采集时就会过滤掉这些不符合采集规则的页面。

简数采集器某个任务的详情页提取器,选择或输入正确的文章页面配置采集规则,title 字段和 content 字段处都勾上 “采集结果不得为空”即可。

1)采集文章页面时

title和content字段采集时都获取到对应的信息,系统就正常采集入库这条数据。



2)采集非文章页面时(例如广告,列表页面)

title或者content字段采集时没有获取到信息,系统就会过滤不入库这条数据。