采集数据处理:HTML标签过滤

提示用户一般不需要做配置,简数已默认过滤不需要的标签。

HTML标签每个都具有其语义和默认样式,例如a标签代表超链接(可点击跳转设置的url),p标签代表文本段落(默认换行显示)等,所以HTML标签在页面显示的效果就各有不同,有些会影响排版布局(分行,表格等),有些是媒体展示(图片,视频等)。

详情提取器 “HTML标签过滤” 的功能是可选择过滤掉哪些HTML标签,根据HTML标签类型出会现两种情况:

1. 标签中有文本的会保留,但会把标签和排版格式去除,例如p标签,a标签等;

2. 标签是空标签,即类似img标签,video标签等,则会把这些媒体资源一并去除;

注意:该功能只有在勾选了 “获取HTML” 功能的字段上生效。


基本流程

1.  双击采集的字段或者字段右边的绿色设置按钮进入数据处理==》转到“HTML标签过滤””选项卡;




2. 系统已默认过滤了一些标签(全不选表示使用系统默认),但界面没显示,需要点击 “重置为默认” 按钮后才显示;

注意:勾选上的是保留,没勾选的是要过滤。




3. 例如过滤table系列标签,勾选掉后保存,得到的采集结果是文本保留,但是没有了表格格式;