1、QRegExp 正则表达式 2010-03-20 17:00 “d+$“ /非负整数(正整数 + 0) “0-9*1-90-9*$“ /正整数 “(-d+)|(0+)$“ /非正整数(负整数 + 0) “-0-9*1-90-9*$“ /负整数 “-?d+$“ /整数 “d+(.d+)?$“ /非负浮点数(正浮点数 + 0) “(0-9+.0-9*1-90-9*)|(0-9*1-90-9*.0-9+)|(0-9*1- 90-9*)$“ /正浮点数 “(-d+(.d+)?)|(0+(.0+)?)$“ /非正浮点数(负浮点数 + 0) “(-(0-9+.0-9*1-90-9*)|(0-9*1-90-
2、9*.0-9+)|(0- 9*1-90-9*)$“ /负浮点数 “(-?d+)(.d+)?$“ /浮点数 “A-Za-z+$“ /由 26 个英文字母组成的字符串 “A-Z+$“ /由 26 个英文字母的大写组成的字符串 “a-z+$“ /由 26 个英文字母的小写组成的字符串 “A-Za-z0-9+$“ /由数字和 26 个英文字母组成的字符串 “w+$“ /由数字、26 个英文字母或者下划线组成的字符串 “w-+(.w-+)*w-+(.w-+)+$“ /email 地址 “a-zA-z+:/(w+(-w+)*)(.(w+(-w+)*)*(?S*)?$“ /url “(d2|d4)-(0(1
3、-91)|(11|2)-(0-2(1-91)|(30|1)$“ / 年-月-日 “(0(1-91)|(11|2)/(0-2(1-91)|(30|1)/(d2|d4)$“ / 月/日/年 “(w-.+)(0-91,3.0-91,3.0-91,3.)|(w-+.)+)(a-zA- Z2,4|0-91,3)(?)$“ /Email “(d+-)?(d4-?d7|d3-?d8|d7,8)(-d+)?“ /电话号码 “(d1,2|1dd|20-4d|250-5).(d1,2|1dd|20-4d|250- 5).(d1,2|1dd|20-4d|250-5).(d1,2|1dd|20-4d|250-5)$“
4、 /IP 地址 (0-9A-F2)(-0-9A-F2)5$ /MAC 地址的正则表达式 -+?d+(.d+)?$ /值类型正则表达式 QRegExp 是 Qt 的正则表达式类. Qt 中有两个不同类的正则表达式. 第一类为元字符.它表示一个或多个常量表达式. 令一类为 转义字符,它代表一个特殊字符. 一.元字符 . 匹配任意单个字符.例如, 1.3 可能是 1. 后面跟任意字符,再跟 3 匹配字符串首. 例如, 12 可能是 123,但不能是 312 $ 配字符串尾. 例如, 12$可以是 312, 当不能是 123 匹配括号内输入的任意字符.123可以为 1, 2 或 3 * 匹配任意数量的
5、前导字符. 例如, 1*2 可以为任意数量个 1(甚至没有), 后面 跟一个 2 + 匹配至少一个前导字符. 例如, 1+2 必须为一个或多个 1, 后跟一个 2 ? 匹配一个前导字符或为空. 例如 1?2 可以为 2 或这 12 二.统配模式 通过 QRegExp:setPatternSyntax(QRegExp:Wildcard);可以将元字符设置为 统配模式.在统配模式下,只有 3 个元字 符可以使用.他们的功能没有变化. ? 匹配任意单个字符, 例如, 1?2 可以为 1,后面跟任意单个字符, 再跟 2 * 匹配任意一个字符序列. 例如, 1*2, 可以为 1, 后面跟任意数量的字符,
6、 再 跟一个 2 匹配一个定义的字符集合. 例如, a-zA-Z.可以匹配 a 到 z 之间任意一个 字符和. a匹配出小写 a 以外的字符. 三.转义序列 . 匹配“.“ 匹配“ $ 匹配“$“ 匹配“ 匹配“ * 匹配“*“ + 匹配“+“ ? 匹配“?“ b 匹配响铃字符,使计算机发出嘟的一声. t 制表符号 n 换行符号 r 回车符鉿 s 任意空格 xnn 匹配 16 进制为 nn 的字符 0nn 匹配 8 进制的 nn 字符 这些表达式均以开始, 与 C+的转义字符相同,所以为了定义 QRegExp 中的一个 转义序列, 需要在前面添加两个 引言 正则表达式(regular expr
7、ession)就是用一个“字符串” 来描述一个特征,然后去验证另 一个“字符串”是否符合这个特征。比如 表达式“ab+” 描述的特征是“一个 a 和 任意个 b ”,那么 ab, abb, abbbbbbbbbb 都符合这个特征。 正则表达式可以用来:(1)验证字符串是否符合指定特征,比如验证是否是合法的 邮件地址。 (2)用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查找 固定字符串更加灵活方便。 (3)用来替换,比普通的替换更强大。 正则表达式学习起来其实是很简单的,不多的几个较为抽象的概念也很容易理解。之所 以很多人感觉正则表达式比较复杂,一方面是因为大多数的文档没有做到由
8、浅 入深地讲解, 概念上没有注意先后顺序,给读者的理解带来困难;另一方面,各种引擎自带的文档一般 都要介绍它特有的功能,然而这部分特有的功能并不是我们首 先要理解的。 文章中的每一个举例,都可以点击进入到测试页面进行测试。闲话少说,开始。 1. 正则表达式规则 1.1 普通字符 字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是“普通字 符“ 。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。 举例1:表达式 “c“,在匹配字符串 “abcde“ 时,匹配结果是:成功;匹配到的内容 是:“c“;匹配到的位置是:开始于2,结束于3。 (注:下标从0开始还是从
9、1开始,因当前 编程语言的不同而可能不同) 举例2:表达式 “bcd“,在匹配字符串 “abcde“ 时,匹配结果是:成功;匹配到的内 容是:“bcd“;匹配到的位置是:开始于1,结束于4。 1.2 简单的转义字符 一些不便书写的字符,采用在前面加 “ 的方法。这些字符其实我们都已经熟知了。 表达式 可匹配 r, n 代表回车和换行符 t 制表符 代表 “ 本身 还有其他一些在后边章节中有特殊用处的标点符号,在前面加 “ 后,就代表该符号 本身。比如:, $ 都有特殊意义,如果要想匹配字符串中 “ 和 “$“ 字符,则表达式就 需要写成 “ 和 “$“。 表达式 可匹配 匹配 符号本身 $ 匹
10、配 $ 符号本身 . 匹配小数点(.)本身 这些转义字符的匹配方法与 “普通字符“ 是类似的。也是匹配与之相同的一个字符。 举例1:表达式 “$d“,在匹配字符串 “abc$de“ 时,匹配结果是:成功;匹配到的内 容是:“$d“;匹配到的位置是:开始于 3,结束于5。 1.3 能够与 多种字符 匹配的表达式 正则表达式中的一些表示方法,可以匹配 多种字符 其中的任意一个字符。比如,表 达式 “d“ 可以匹配任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是 多个。这就好比玩扑克牌时候,大小王可以代替任意一张牌,但是只能代替一张牌。 表达式 可匹配 d 任意一个数字,09 中的任意一
11、个 w 任意一个字母或数字或下划线,也就是 AZ,az,09,_ 中任意一个 s 包括空格、制表符、换页符等空白字符的其中任意一个 . 小数点可以匹配除了换行符(n )以外的任意一个字符 举例1:表达式 “dd“,在匹配 “abc123“ 时,匹配的结果是:成功;匹配到的内容是: “12“;匹配到的位置是:开始于3,结束于5。 举例2:表达式 “a.d“,在匹配 “aaa100“ 时,匹配的结果是:成功;匹配到的内容是: “aa1“;匹配到的位置是:开始于1,结束于4。 1.4 自定义能够匹配 多种字符 的表达式 使用方括号 包含一系列字符,能够匹配其中任意一个字符。用 包含一系列字 符,则能
12、够匹配其中字符之外的任意一个字符。同样的道理,虽然可以匹配其中任意一个, 但是只能是一个,不是多个。 表达式 可匹配 ab5 匹配 “a“ 或 “b“ 或 “5“ 或 “ abc 匹配 “a“,“b“,“c“ 之外的任意一个字符 f-k 匹配 “f“k“ 之间的任意一个字母 A-F0-3 匹配 “A“F“,“0“3“ 之外的任意一个字符 举例1:表达式 “bcdbcd“ 匹配 “abc123“ 时,匹配的结果是:成功;匹配到的内容 是:“bc“;匹配到的位置是:开始于1,结束于3。 举例2:表达式 “abc“ 匹配 “abc123“ 时,匹配的结果是:成功;匹配到的内容是: “1“;匹配到的位
13、置是:开始于3,结束于4。 1.5 修饰匹配次数的特殊符号 前面章节中讲到的表达式,无论是只能匹配一种字符的表达式,还是可以匹配多种字 符其中任意一个的表达式,都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊 符号,那么不用重复书写表达式就可以重复匹配。 使用方法是:“次数修饰 “放在“被修饰的表达式“后边。比如: “bcdbcd“ 可以写成 “bcd2“。 表达式 作用 n 表达式重复 n 次,比如: “w2“ 相当于 “ww“; “a5“ 相当于 “aaaaa“ m,n 表达式至少重复 m 次,最多重复 n 次,比如: “ba1,3“可以匹配 “ba“或“baa“或“baaa“ m,
14、 表达式至少重复 m 次,比如: “wd2,“可以匹配 “a12“,“_456“,“M12344“. ? 匹配表达式0次或者1次,相当于 0,1,比如: “acd?“可以匹配 “a“,“ac“,“ad“ + 表达式至少出现1次,相当于 1,,比如: “a+b“可以匹配 “ab“,“aab“,“aaab“. * 表达式不出现或出现任意次,相当于 0,,比如: “*b“可以匹配 “b“,“b“. 举例1:表达式 “d+.?d*“ 在匹配 “It costs $12.5“ 时,匹配的结果是:成功;匹配到 的内容是:“12.5“;匹配到的位置是:开始于 10,结束于 14。 举例2:表达式 “go2,
15、8gle“ 在匹配 “Ads by goooooogle“ 时,匹配的结果是:成功; 匹配到的内容是:“goooooogle“;匹配到的位置是:开始于7,结束于17。 1.6 其他一些代表抽象意义的特殊符号 一些符号在表达式中代表抽象的特殊意义: 表达式 作用 与字符串开始的地方匹配,不匹配任何字符 $ 与字符串结束的地方匹配,不匹配任何字符 b 匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符 进一步的文字说明仍然比较抽象,因此,举例帮助大家理解。 举例1:表达式 “aaa“ 在匹配 “xxx aaa xxx“ 时,匹配结果是:失败。因为 “ 要求 与字符串开始的地方匹配,因此,
16、只有当 “aaa“ 位于字符串的开头的时候,“aaa“ 才能匹 配, 比如:“aaa xxx xxx“ 。 举例2:表达式 “aaa$“ 在匹配 “xxx aaa xxx“ 时,匹配结果是:失败。因为 “$“ 要 求与字符串结束的地方匹配,因此,只有当 “aaa“ 位于字符串的结尾的时候,“aaa$“ 才能 匹配, 比如:“xxx xxx aaa“。 举例3:表达式 “.b.“ 在匹配 “abc“ 时,匹配结果是:成功;匹配到的内容是: “a“;匹配到的位置是:开始于 2,结束于4。 进一步说明:“b“ 与 “ 和 “$“ 类似,本身不匹配任何字符,但是它要求它在匹配 结果中所处位置的左右两边
17、,其中一边是 “w“ 范围,另一边是 非“w“ 的范围。 举例4:表达式 “bendb“ 在匹配 “weekend,endfor,end“ 时,匹配结果是:成功;匹 配到的内容是:“end“;匹配到的位置是:开始于15,结束于18。 一些符号可以影响表达式内部的子表达式之间的关系: 表达式 作用 | 左右两边表达式之间 “或“ 关系,匹配左边或者右边 ( ) (1). 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰 (2). 取匹配结果的时候,括号中的表达式匹配到的内容可以被单独 得到 举例5:表达式 “Tom|Jack“ 在匹配字符串 “Im Tom, he is Jack“ 时,
18、匹配结果是:成 功;匹配到的内容是:“Tom“;匹配到的位置是:开始于4,结束于7。匹配下一个时,匹 配结果是:成功;匹配到的内容是:“Jack“;匹配到的位置时:开始于15,结束于19。 举例6:表达式 “(gos*)+“ 在匹配 “Lets go go go!“ 时,匹配结果是:成功;匹配到 内容是:“go go go“;匹配到的位置是:开始于 6,结束于 14。 举例7:表达式 “¥(d+ .?d*)“ 在匹配 “10.9,¥20.5“ 时,匹配的结果是:成功; 匹配到的内容是:“¥20.5“ ;匹配到的位置是:开始于 6,结束于 10。单独获取括号范围匹 配到的内容是:“20.5“。
19、2. 正则表达式中的一些高级规则 2.1 匹配次数中的贪婪与非贪婪 在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不 同的次数,比如:“m,n“, “m,“, “?“, “*“, “+“,具体匹配的次数随被匹配的字符串而定。 这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本 “dxxxdxxxd“,举例如下: 表达式 匹配结果 (d)(w+) “w+“ 将匹配第一个 “d“ 之后的所有字符 “xxxdxxxd“ (d)(w+)(d) “w+“ 将匹配第一个 “d“ 和最后一个 “d“ 之间的所有字符 “xxxdxxx“。虽然 “w+“ 也能
20、够匹配上最后一个 “d“,但是为了使整个表达式匹配成功,“w+“ 可以 “让出“ 它本来能够匹配的最后一个 “d“ 由此可见,“w+“ 在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二 个举例中,它没有匹配最后一个 “d“,但那也是为了让整个表达式能够匹配成功。同理, 带 “*“ 和 “m,n“ 的表达式都是尽可能地多匹配,带 “?“ 的表达式在可匹配可不匹配的 时候,也是尽可能的 “要匹配 “。这 种匹配原则就叫作 “贪婪“ 模式 。 非贪婪模式: 在修饰匹配次数的特殊符号后再加上一个 “?“ 号,则可以使匹配次数不定的表达式 尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 “
21、不匹配“。这种匹配原则叫作 “ 非贪婪“ 模式,也叫作 “勉强“ 模式。如果少匹配就会导致整个表达式匹配失败的时候, 与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例 如下,针对文本 “dxxxdxxxd“ 举例: 表达式 匹配结果 (d)(w+?) “w+?“ 将尽可能少的匹配第一个 “d“ 之后的字符,结果是: “w+?“ 只匹配了一个 “x“ (d)(w+?)(d ) 为了让整个表达式匹配成功,“w+?“ 不得不匹配 “xxx“ 才可以让后边的 “d“ 匹配,从而使整个表达式匹配成功。因此,结果是:“w+?“ 匹配 “xxx“ 更多的情况,举例如下: 举例1
22、:表达式 “(.*)“ 与字符串 “aa bb“ 匹配时,匹配的结果是:成功;匹配到的内容是 “aa bb“ 整个字符串, 表达式中的 “ 将与字符串中最后一个 “ 匹配。 举例2:相比之下,表达式 “(.*?)“ 匹配举例1中同样的字符串时,将只得到 “aa“, 再次匹配下一个时,可以得到第二个 “bb“。 2.2 反向引用 1, 2. 表达式在匹配时,表达式引擎会将小括号 “( )“ 包含的表达式所匹配到的字符串记录 下来。在获取匹配结果的时候,小括号包含的表达式所匹配到的字符串可以单独获取。这 一点,在前面的举例中,已经多次展示 了。在实际应用场合中,当用某种边界来查找,而 所要获取的内
23、容又不包含边界时,必须使用小括号来指定所要的范围。比如前面的 “(.*?)“。 其实,“小括号包含的表达式所匹配到的字符串“ 不仅是在匹配结束后才可以使用,在 匹配过程中也可以使用。表达式后边的部分,可以引用前面 “括号内的子匹配已经匹配到 的字符串“。引用方法是 “ 加上一个数字。“1“ 引用第 1对括号内匹配到的字符串,“2“ 引用第2对括号内匹配到的字符串以此类推,如果一对括号内包含另一对括号,则外层 的括号先排序号。换句话说,哪一对的左括号 “(“ 在前,那这一对就先排序号。 举例如下: 举例1:表达式 “(|“)(.*?)(1)“ 在匹配 “ Hello, “World“ “ 时,匹
24、配结果是:成功;匹 配到的内容是:“ Hello “ 。再次匹配下一个时,可以匹配到 “ “World“ “。 举例2:表达式 “(w)14,“ 在匹配 “aa bbbb abcdefg ccccc 111121111 999999999“ 时, 匹配结果是:成功;匹配到的内容是 “ccccc“。再次匹配下一个时,将得到 999999999。这 个表达式要求 “w“ 范围的字符至少重复 5次, 注意与 “w5,“ 之间的区别。 举例3:表达式 “.*?“ 在匹配 “ 时,匹配结果是成功。如果 “ 与 “ 不配对,则会 匹配失败;如果改成其他配对,也可以匹配成功。 2.3 预搜索,不匹配;反向预
25、搜索,不匹配 前面的章节中,我讲到了几个代表抽象意义的特殊符号:“,“$“ ,“b“。它们都有一 个共同点,那就是:它们本身不匹配任何字符,只是对 “字符串的两头“ 或者 “字符之间 的缝隙“ 附加了一个条件。理解到这个概念以后,本节将继续介绍另外一种对 “两头“ 或 者 “缝隙“ 附加条件的,更加灵活的表示方法。 正向预搜索:“(?=xxxxx)“,“(?!xxxxx)“ 格式:“(?=xxxxx)“,在被匹配的字符串中,它对所处的 “缝隙“ 或者 “两头“ 附加的 条件是:所在缝隙的右侧,必须能够匹配上 xxxxx 这部分的表达式。因为它只是在此作为 这个缝隙上附加的条件,所以它并不影响后
26、边的表达式去真正匹配这个缝隙之后的字符。 这就类似 “b“,本身不匹配任何字符。“b“ 只是将所在缝隙之前、之后的字符取来进行了 一下判断,不会影响后边的表达式来真正的匹配。 举例1:表达式 “Windows (?=NT|XP)“ 在匹配 “Windows 98, Windows NT, Windows 2000“ 时,将只匹配 “Windows NT“ 中的 “Windows “,其他的 “Windows “ 字样则不被匹 配。 举例2:表达式 “(w)(?=111)(1)+“ 在匹配字符串 “aaa ffffff 999999999“ 时,将可 以匹配6个“f“的前4个,可以匹配9个“9“
27、的前7个。这个表达式可以读解成:重复4次以上的 字母数字,则匹配其剩下最后2位之前的部分。当然,这个表达式可以不这样写,在此的目 的是作为演示之用。 格式:“(?!xxxxx)“,所在缝隙的右侧,必须不能匹配 xxxxx 这部分表达式。 举例3:表达式 “(?!bstopb).)+“ 在匹配 “fdjka ljfdl stop fjdsla fdj“ 时,将从头一直匹 配到 “stop“ 之前的位置,如果字符串中没有 “stop“,则匹配整个字符串。 举例4:表达式 “do(?!w)“ 在匹配字符串 “done, do, dog“ 时,只能匹配 “do“。在本 条举例中,“do“ 后边使用 “(?!w)“ 和使用 “b“ 效果是一样的。 反向预搜索:“(?(.*?)