当缩略图(又称封面图、特色图)只存在于列表页,而详情页内没有时,可以使用父子任务关联采集方式,将列表页中的缩略图与详情页的内容(标题、正文等)采集合并为完整数据 。
配置基本流程:
父任务采集列表缩略图 -> 子任务采集详情内容,引用缩略图 -> 启动采集,自动合并数据
1. 父任务采集缩略图
父任务作用:采集列表页里每个项目的缩略图和详情页网址链接,其中网址既是子任务的采集来源,也是两个任务数据关联的唯一标识。
详细操作步骤:
1)创建 "列表页|表格数据" 任务
在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【列表页|表格数据(单页多数据)】-> 输入任务名和列表页网址,保存 -> 打开列表提取器配置采集规则。


2)圈选列表数据区块
打开列表提取器,连续选中两个结构相同的数据区块,系统便会自动识别页面上所有相似的区块,将每个区块作为一条独立数据进行采集,比如列表中的一项(或表格中一行)为一条数据。

保存,点击【第2步:详情提取器】按钮进入字段规则配置。
3)获取缩略图
在数据区块中,配置要提取的缩略图和详情页网址。
I、采集详情页网址(必要)
先配置提取列表项的详情页网址链接(必要,作为关联标识):
点击切换到url字段,勾上【该字段值唯一】和【只获取网址】 -> 点选一个列表项的标题作为采集范围 -> 数据预览显示对应的详情页网址,保存。
注意:若获取不到网址,采集范围改选整个列表项或者图片,其Xpath值结尾应为a或a/kds。

II、采集缩略图地址
切换到content字段,选择一个列表项的缩略图片作为采集范围(其Xpath值结尾应为img或img/kds)-> 打开content字段数据处理,勾上【只采集图片链接】,保存 -> 数据预览显示相应的缩略图地址。


无需采集的字段可留空或删除,最后务必保存(页面右上角)。
父任务配置完成后,先不启动运行采集,由子任务来控制触发。
2. 子任务采集详情内容,引用父任务的缩略图
子任务根据父任务提供的网址链接,逐个抓取对应的详情页内容(如标题、正文等),并引用父任务采集的缩略图,合并生成一条完整数据。
完整操作步骤如下:
1)创建 "详情页" 模式任务
在采集任务列表【创建采集任务(高级模式)】-> 采集模式选择【详情页(单网页:零散、批量或无限循环)】-> 输入任务名和一个详情页网址(作为批量采集的样本模板),保存 。


2)关联父任务
将父、子任务关联起来,子任务才可获取父任务采集的网址与数据。
在子任务基本信息处,点击【从其它任务获取网址】,弹出关联父任务配置 -> 勾上【总是先运行父任务】 -> 选择父任务和网址来源字段(即父任务的url字段,作为父子任务数据关联合并的标识),保存。

3)配置详情页采集规则
打开详情提取器,先照常完成详情页内容采集配置。
简数采集器提供直观可视化的操作界面,通过鼠标点选即可快速自定义采集目标内容(如标题、正文、标签、关键词等)。完整使用说明可看【详情提取器-内容采集规则配置】。

4)引用父任务的缩略图
在子任务详情提取器添加新字段 thumb_img(举例,可自行命名) -> 打开其字段处理配置的【高级提取】-> 提取类型选择【从父任务获取数据】-> 【父任务字段】选择content 字段(前文示例父任务采集缩略图的字段),保存。
特别注意:如需下载链接地址对应的缩略图,请勾上【需下载图片】选项,不勾选则使用源网站的图片地址。

3. 启动采集,自动合并数据

提示:自动定时采集、发布、图片下载、SEO规则处理、第三方API、AI执行等操作都在子任务配置。
1)父任务采集结果

2)子任务采集与合并结果

3)导出发送缩略图
如需导出发送缩略图,发送目标第二步请注意选择对应的新字段。(无对应字段选择解决方法)
