采集数据处理:正则提取或替换内容

简数采集平台正则表达式功能:用户可使用正则表达式提取或者替换匹配内容;

简数采集平台将一些常用的正则表达式列出,方便用户使用:日期,中文日期,正整数,负整数,正浮点数,负浮点数,网址URL,Email,IP和身份证号。


基本流程:

一、正则功能界面

双击采集的字段或者字段右边的绿色设置按钮进入数据处理==》转到 “日期等正则提取 栏目;


二、功能描述

1. 字段原值:采集内容显示区,可与最下方的 “字段处理后值” 作对比;

2. 常用表达式:点击该处的按钮,会出现相应的正则表达式;

3. 将匹配的内容:可填写要替换的字符串或正则表达式;(该处会匹配原值中符合条件的所有内容)

4. 替换为:如果不填,匹配的内容会替换原值;

    如果填写了,匹配的内容会被填写的值替换,原值其他内容保持不变;(例子见下方结果)

5. 正则捕获组:使用捕获语法提取匹配内容,该处只能提取不能替换;(该处正则只会匹配原值中符合的第一个内容)

6. 多组值分隔符:如果正则捕获组有多个,填写的值会作为多个捕获组间的分隔符;(例子见下方中文日期)

    PS:如果不填,则无分隔符;

7. 字段处理后值:该处为正则匹配内容处理后的结果值,根据配置可分三种情况:

    ——显示提取匹配的内容;

    ——显示原值替换匹配内容后的结果值;

    ——无匹配到任何内容,为空;


三、常用正则表达式例子

1. 日期


2. 中文日期


3. 网址URL



4.  Email



5. 正则替换