采集数据处理:删除前后多余内容

  有些网站会在正文前面或者后面添加一些宣传信息, 如果在详情页提取器无法将这些信息和采集的正文(一般为勾选获取Html的content字段)分开时,就需要通过字段数据处理来删除。

若这些多余的信息只是图片或者链接,有快速删除的方法,详情戳这里:http://www.keydatas.com/doc/3YVBj2nUV7nu/caiji-shuju-tupian-shanchu

若这些多余的信息有文本参杂在中间,就需要用到 ‘HTML标签删除’ 功能。

1. 在详情页提取器设置好相应字段采集的内容,下图为content字段采集的内容,含有无法分离的多余信息;



2. 点击测试采集==》点击源代码==》查找多余信息的标签代码;



3. 双击采集的字段或者字段右边的绿色设置按钮进入数据处理==》转到“高级删除&处理”栏目;


4. 填上需要删除信息的标签位置和个数,点击保存后即可删除;(此处可选择的标签为常见标签)



5. 有些网页是用div标签区分正文内容与次要信息的,所以要先设置保留div标签,才可以删除div标签里的内容;



6对于无标签的文本,可以使用字符替换功能,采集数据处理:字符替换

除了上面的方法,简数采集平台还可以对已采集的数据进行批量删除html标签(此处支持所有标签种类),工具在“结果数据&发布栏目;