如何采集下载地址

简数采集器支持采集网页中的下载地址、网盘地址或资源地址。

获取下载地址的详细操作方法:

1. 确认下载地址

先在网页源代码中确认是否有下载地址,在Html标签的哪个属性。

1-1)查看网页源代码

    在浏览器访问要采集的网页,鼠标右键点击【查看网页源代码】选项。

    注意:如果下载地址是需登录后才显示,请先登录再查看网页源代码。



1-2)搜索下载地址

    在网页源码页面,点击浏览器右上角控制菜单的查找功能(快捷键为Ctrl+F),搜索下载地址是否存在,没有则不支持采集。

    下载地址一般是在a标签的href或data-url等属性,示例图为data-url属性。




2. 获取下载地址

简数采集器的详情页提取器,按照以下步骤获取下载地址:

2-1)使用已有字段或新添加一个字段(字段命名不能用标点符号)来专门获取下载地址;

2-2)先点选到要采集的下载按钮 ,一般是a标签或button标签,如果无法精确点选到请使用【手写Xpath方法】

2-3)如果获取的下载地址是在a标签的href属性,直接勾上【获取网址】选项,接着点击右上角保存按钮完成配置,测试采集看看结果;



2-3)如果下载地址是在其他属性,请打开该字段的字段数据处理,点击【高级提取】选项;

2-4)【提取值类型】选择节点属性,然后在【属性名】填写对应的属性名称,接上图例子下载地址是在data-url属性,此处填写data-url

2-5)保存完成下载地址获取配置,再测试采集看看结果;

    注意:如果下载地址是在登录后才显示,请先【获取登录的cookie信息填写到简数采集器】