文章描述(description)和关键词(keywords)采集配置

     本文的description和keywords字段内容是指网页<meta name="description">和<meta name="keywords">标签的content属性内容,它们无法通过可视化窗口点选采集

可通过以下方法配置解决(使用其中一个即可):

1. 系统默认配置

简数采集器的控制台点击 “+创建采集任务” 按钮创建任务,按智能向导模式操作,详情页规则器的description和keywords字段系统会自动配置好。

2. 在详情提取器,左侧“字段定义”-》“添加”,从下拉字段中选择description或keywords即可。

3. Xpath + 字段数据处理

若使用 “+创建任务(高级)” 创建的任务,详情页规则器中无配置好的字段,需要用户自定义配置;

或者用户之前删除了description和keywords字段,现需加回来;

这些场景可使用 “Xpath + 字段数据处理” 方法来解决:

基本流程

一、 添加description和keywords字段

点击添加字段,并分别命名为description和keywords;




二、填写Xpath值

description字段的当前字段Xpath填上 //meta[@name="description"]  (固定值,网页通用);

keywords字段的当前字段Xpath填上   //meta[@name="keywords"]  (固定值,网页通用);

注意:填写后记得点击 “保存Xpath” 按钮;




三、字段数据处理

分别在description和keywords字段的字段数据处理高级配置” 选项卡中==》“提取值类型” 中选择 “节点属性(需填写属性名)”==》“属性名” 中填写content ;

注意:完成后记得点击 “保存” 按钮;