如果需要采集的内容不都在详情页,部分在详情页的分页或下级页面(跳转子页面)中,例如内容分页,下载页,多选项卡页等,可使用简数采集器的分页采集功能来解决,具体使用方法如下:
1. 采集内容分页
简数采集器实现内容分页采集,只需简单几步配置采集分页区域即可,操作步骤如下:
1)在详情页提取器,先完成正文内容(content字段)的基础采集配置;
2)勾选content字段的【该字段内容有多分页】选项;
3)启用【分页点选开关】 (显示 √ 标志),然后点选分页所在区域,保存完成配置;
2. 采集下级页面(跳转子页面)
当采集内容在详情页内的链接指向页面时(即下级页面,例如下载页、多选项卡页等),可按以下操作获取:
1)选择链接区域
在详情页提取器中,勾选对应字段的【该字段内容有多分页】选项 -》启用【分页点选开关】 (显示 √ 标志),然后选择包含下级页面跳转链接的区域。
比如下图,课程介绍是详情页,还需要采集章节目录页里的内容,对应字段分页区域则应选择包含章节目录跳转链接的区域。
2)获取跳转页面内容的Xpath值
在浏览器访问跳转页面链接(如章节目录页面),获取要采集的目录内容区域的xpath值:
//*[@class="chapter-ul"]
备注:如何获取xpath值可查看《Xpath常见语法使用详细教程》。
3)填写Xpath值到提取器
在简数采集器详情页提取器对应字段的当前字段Xpath处,填写下级页面内容的xpath值://*[@class="chapter-ul"],保存后测试采集,检查效果。