博客园-首页 - 采集模板

共享时间: 2018-02-04
  • 媒体资讯
  • 博客园
  • cnblogs
网页数据采集模板简介

采集的是博客园的首页:https://www.cnblogs.com/

配置主要字段:标题,作者,发布日期,正文内容

系统默认返回字段:抓取的URL(原文),抓取时间,第一张图片链接;

列表翻页数量:2页,如需调整,可到该任务选项卡"采集更多网址配置(批量网址配置)"中进行配置

主要数据示例如下: