提取器小技巧:列表选择详情页链接时,去除多余的链接

    采集有时可能会遇到一个问题,在列表页提取器选择要采集的url链接时,中间夹杂着一些其它不想采集的链接,例如栏目、标签链接等;

一般可以通过改写Xpath值来进行精确选择。但有个更简单的方法,就是在详情页提取器利用 “采集结果不得为空” ,从而在采集过程中过滤掉这些页面(因为这些页面往往跟详情的结构不一样);

下面我们用 “参考消息”(http://www.cankaoxiaoxi.com/) 这个网站来作为例子: 


1. 在列表页提取器选择采集想要的链接;




2.  在详情页提取器的title字段和content字段处勾上 “采集结果不得为空”;





3.  查看采集结果,完美过滤掉不需要采集的详情页;