采集数据处理:高级配置

本文主要简单说明简数采集平台详情页提取器的字段数据处理 “高级配置” 选项卡中的各个功能。


一、高级配置界面

双击采集的字段或者字段右边的绿色设置按钮进入数据处理==》转到 “高级配置” 栏目;


二、各功能概述

1. 提取值类型:

    i. 文本:单纯文本,无任何格式;

    ii. 获取html(带格式的文本和图片等):获取定位元素内的子孙元素内容,包括html标签(可设置过滤某些标签,详情见HTML标签过滤);

    iii. OuterHtml:比 “获取html” 多了本节点;

    iv. OwnText:仅本节点文本,不含子孙节点的文本;

    v. 节点属性(需填写属性名):可获取元素中定义的属性值;

    vi. 随机值:请到 “随机&固定值” 选项卡中设置该功能;



2. 勾选框功能:

    i. 采集结果不得为空:勾选上,若采集内容为空,该数据不会入库;

    ii. 只获取网址:一般用于获取a标签的链接地址,即href属性值;

    iii. 选择多值:标签一般为多值或需要选择多个内容,常用于tag字段;

    iv. 只采集图片链接:只获取图片的链接;(默认优先从img标签的data-src、src等属性中获取图片链接,若链接不在这些属性中,可在下方的 “图片链接属性” 处修改)

PS:ii 和 iv 项的功能勾选后,系统会自动选择 “提取值类型” 和填写 “属性名” 等;



3. 图片链接属性

获取html时,默认优先从img标签的data-src、src等属性中获取图片链接,所以一般留空即可;

若采集的网站把图片链接存放在自定义属性中,则需在该处填写相应的属性。



4. 多值分隔字符

当使用 “选择多值” 功能时,默认在多个值间用逗号作为分隔符,如需修改,在此填写即可;

(PS:数据预览处仅供参考,不一定准确)