`

正则表达式中的懒惰匹配与非捕获组

阅读更多
当正则表达式中包含能接受重复的限定符(指定数量的代码,例如*,{5,12}等)时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。

    考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

    有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:

     a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab和ab。



举例1:
   表达式 "<td>(.*)</td>" 与字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配时,匹配的结果是:成功;匹配到的内容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整个字符串, 表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。
举例2:
   相比之下,表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时,将只得到 "<td><p>aa</p></td>", 再次匹配下一个时,可以得到第二个 "<td><p>bb</p></td>"。

懒惰限定符
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

这个例子供测试:
import java.util.regex.*;
public class Test{
  public static void main(String[] args) {
    //String s = "<td><<p>aa</p></td> <td><p>bb</p></td>";//用于其它测试
    String s = "<td>aa555</td><td>bbb</td><td>abc</td>";//用于{1,40},{1,}测试
    //String s = "<td>a</td><td>b</td><td></td>";//用于.??测试
    //String regex="<td>(.*)</td>";

     //String regex="<td>(.*?)</td>";
     // String regex="<td>(.+?)</td>";
     //String regex="<td>(.??)</td>";
     //String regex="<td>(.{1,40}?)</td>";
     String regex="<td>(.{1,}?)</td>";
     Pattern pt=Pattern.compile(regex);
     Matcher mt=pt.matcher(s);
     while(mt.find()){
       System.out.println(mt.group(1).trim());
     }
   }
}

非捕获组(?:Exp):匹配Exp部分正则表达式,但匹配的结果并不保存到捕获组,一般在验证规则时使用,因为保存捕获组都要占用一定的内存资源,而不需要保留匹配结果时,可以使用非捕获组来节省资源

import java.util.regex.*;

public class Test {
  public static void main(String[] args) {
    String str = "<a href=\"11\"> <font color=\"21\">aaa </font> </a>" +
       "<a href=\"12\"> <font color=\"22\">bbb </font> </a>" +
       "<a href=\"13\">ccc </a> " +
       "<a href=\"14\"> <font color=\"23\">ddd </font> </a>" +
       "<a href=\"15\"> <font color=\"25\">eee </font> </a> " +
       "<a href=\"16\">fff </a> ";
    String regex = "<a.*?>(?:\\s*<font[^>]*>)?(.*?)(?:</font>\\s*)?</a>";
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(str);
    while(matcher.find()) {
      System.out.println(matcher.group(1));
    }
  }
}

这个例子的运行结果是:
C:\java>java Test
aaa
bbb
ccc
ddd
eee
fff
分享到:
评论

相关推荐

    易语言正则表达式类匹配中文

    易语言正则表达式类匹配中文源码,正则表达式类匹配中文,创建,取正则文本,替换,取匹配数量,取匹配文本,取子匹配文本,取子匹配数量

    wps表格excel正则工具,excel正则表达式替换/匹配/查找/搜索/提取数字

    而本软件正是把强大的正则功能完美地添加到表格中,让 Excel、WPS 支持正则表达式的搜索、匹配提取、替换、定位等,让数据处理能力进化一个层次! 让 Office Excel、WPS 表格支持正则表达式的免费插件:「Excel ...

    常用java正则表达式

    如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单。如果你不熟悉这个术语,那么“正则表达式”(Regular Expression)就是一个字符构成的串,它定义了一...

    使用正则表达式的模式匹配

    JavaScript的RegExp类表示正则表达式,而String和RegExp都定义了使用正则表达式进行强大的模式匹配和文本检索与替换的函数。 ECMAScript v3对JavaScript正则表达式进行了标准化。JavaScript 1.2实现了ECMAScript v3...

    正则表达式--递归匹配与非贪婪匹配

     有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况。比如,使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配一对小括号。但是如果括号内还嵌有一层括号的话 ,如 "( ( ) )",则这种写法将不能够...

    正则表达式常用匹配.doc

    正则表达式常用匹配.doc正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用匹配正则表达式常用...

    kettle 根据系统时间加正则表达式动态匹配获取多个文本文件

    kettle 根据系统时间加正则表达式动态匹配获取多个文本文件

    关于在LABVIEW中使用正则匹配公式.vi

    在labview中使用正则匹配模式很简单,难的就是使用正则表达式。很多人都搞不明白,查了很多资料还是不太明白。实际上就是一些类似通配符在作怪和其他语言也差不多。附件带上了,可以研究研究,构造正则表达式的方法...

    正则表达式大全 - 收集的最常用正则表达式

    匹配中文字符的正则表达式 匹配空白行的正则表达式 匹配HTML标记的正则表达式 匹配Email地址的正则表达式 匹配网址URL的正则表达式 匹配国内电话号 匹配中国邮政编码 匹配身份证 匹配ip地址 匹配特定字符串 匹配中文...

    正则表达式 正则表达式 正则表达式

    正则表达式,正则表达式,正则表达式 正则表达式 正则表达式 正则表达式 正则表达式 正则表达式 正则表达式

    正则表达式正则表达式

    正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式正则表达式...

    正则表达式大全 正则表达式 模式匹配 Javascript

    关键字:正则表达式 模式匹配 Javascript 摘要:收集一些常用的正则表达式。 正则表达式用于字符串处理,表单验证等场合,实用高效,但用到时总是不太把握,以致往往要上网查一番。我将一些常用的表达式收藏在这里...

    常用正则表达式 正则表达式

    常用正则表达式 正则表达式 常用正则表达式 正则表达式

    正则表达式(日期校验)

    正则表达式日期校验 正则表达式日期校验 正则表达式日期校验

    正则表达式在数据库查询中的应用

    教你如何将正则表达式使用在SQL查询中,工作中经常需要,因为用正则表达式查询能更准确的查询出匹配的信息,学Oracle必须要懂得知识点

    正则表达式.rar正则表达式.rar正则表达式.rar正则表达式.rar正则表达式.rar

    正则表达式.rar正则表达式.rar正则表达式.rar正则表达式.rar

    IP地址的正则表达式

    IP地址的正则表达式IP地址的正则表达式

    学习正则表达式-Michael+Fitzgerald.pdf

    书中贯穿了大量简洁明了的示例,旨在让读者轻松掌握正则表达式。此外,书中各在线和桌面工具一应俱全,并介绍了进阶参考资料,是一本不可多得的正则表达式入门好书。《学习正则表达式》适合对正则表达式感兴趣的...

    scala正则表达式与模式匹配.doc

    scala正则表达式在模式匹配中的应用:提取模式的分组值,通过代码理解正则表达式与模式匹配的原理。

    正则表达式验证工具,正则表达式校验工具

    3、选择排除规则,一、按正则表达式把源码中符合正则的删除;二、按正则表达式把源码中符合正则的找出;三、符合正则表达式的显示True 4、选择是否不区分大小写(RegexOptions.IgnoreCase),单行模式...

Global site tag (gtag.js) - Google Analytics