网址导航网站采集发布教程

简数采集器可自动采集导航网站的网址链接(如AI导航站、软件资源站等),并发布到指定网站。

导航站网址采集发布基本流程:定位网页中的网址位置 -> 配置网址采集规则 -> 采集发布网站。

1. 定位网页中的链接地址

查找要采集的链接地址在网页中的具体位置,并使用XPath语法定位提取。查找链接方法主要有两种:右键快速查找和源代码精准查找。

1)右键快速查找

在浏览器打开目标页面,对包含网址的区域,鼠标右键选择 "检查" ,可快速查看对应的HTML代码。


当网址为<a>标签的href属性时,可直接使用简数【获取网址】功能一键提取。

若代码中未发现目标网址(如上图示例中的 "链接直达"),建议打开网页完整源代码进行搜索。


2)源代码精准查找

在网页源代码中查找目标网址,是更全面且准确的方法。

I. 查看源代码

浏览器打开目标页面,在网页空白处(无文本与图片),鼠标右键选择 "查看网页源代码" 。

源代码查看方式二:在浏览器地址栏输入 view-source:https://www.网站.com/


II. 精准搜索

在网页源代码页面,快捷键 Ctrl + F 打开搜索框,输入目标网址(如 trae.com),可精准定位所有匹配网址的具体位置。


如示例图,目标网址在 class="btn btn-arrow qr-img" 类的标签 title 属性值中。


2. 配置网址采集规则

网址采集配置方法主要有两种:提取标签属性值(如<a>标签的href,data-url属性),和抓取跳转子页面的内容。

1)提取标签属性中的网址

打开简数详情提取器,填写对应字段Xpath值(沿用前面示例,值应为//*[@class="btn btn-arrow qr-img"]) -> 字段数据处理 -> 高级提取 -> 提取值类型选择【节点属性】 -> 属性名填写title。

补充说明:>>> Xpath语法使用教程(重点为第4和5节)



若属性值里除了目标网址,还包含多余内容,可使用替换删除或正则截取功能只保留网址。

示例获取属性值为 https://www.网址.com/qr/?text=https://www.trae.com.cn/?utm_source=advertising&#038;utm_medium=....

此例建议使用正则截取功能提取网址:在字段数据处理【常用截取|提取】,正则捕获组处填写相应的正则表达式:

text=(.+?)\?

说明:此表达式是截取text=和?字符之间的内容,(.+?)为固定语法,问号字符需加反斜杠转义。


完成提取标签属性中的网址配置后,发送操作请参见下方【第3章 发送导航网站】


2)采集跳转页面中的网址

如果目标网址未直接出现在网页源代码中,需通过点击a标签跳转至子页面后获取,可使用内容多分页功能实现抓取。操作示例如下:


I)跳转链接采集

在简数详情提取器,点击对应字段  -> 勾选【该字段内容有多分页】 -> 点击分页采集开关 -> 【分页区域Xpath】栏填写对应详情页跳转链接a标签的Xpath值。(例子为//*[@class="site-go-url"]/a[1])

补充说明:>>> Xpath语法使用教程(重点为第4和5节)



II)跳转页面采集配置

在浏览器打开跳转子页面,查找目标网址。


因跳转页面停留时间过短,建议通过查找网页源代码定位目标网址,在浏览器地址栏直接输入:

view-source:https://网站.com/go/?url=aHR0c....



在简数详情提取器,【当前字段Xpath】填写对应目标网址的Xpath值(例子为//*[@class="loading-btn"]) -> 字段数据处理 -> 高级提取 -> 提取值类型选择【节点属性】 -> 属性名填写href -> 保存,测试采集查看结果。



III)采集结果


3. 发送导航网站

简数采集器支持自动发送网址数据到导航网站,比如Wordpress的OneNav 主题(一为主题)。

1)安装发布插件

下载并安装 Wordpress采集发送插件(兼容OneNav主题)

2)添加并配置发送目标

在【发送目标管理】页面,添加相应CMS系统的发送目标,例如添加发送目标WordPress。



第二步配置映射字段处,"post类型" 选择sites -> 第三步添加扩展参数,参数名填写_sites_link(网址链接)和 _sites_sescribe(简介),并映射采集网址的字段。


一为主题其他可选参数:_seo_title(seo标题)、_seo_metakey(seo关键词)、_seo_desc(seo描述)等;


3)发送数据

在简数采集结果数据,将网址数据批量发送到导航网站。