语法 | 说明 |
---|---|
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母或数字或下划线 |
\s | 匹配任意的空白符 |
\d | 匹配数字 |
\b | 匹配单词的开始或结束 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
语法 | 说明 |
---|---|
* | 重复零次或更多次 |
+ | 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
语法 | 说明 |
---|---|
\W | 匹配任意不是字母,数字,下划线,汉字的字符 |
\S | 匹配任意不是空白符的字符 |
\D | 匹配任意非数字的字符 |
\B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
正则表达式是一种强大的文本模式匹配工具,用于在字符串中查找匹配特定模式的文本。它是由一系列字符和特殊字符组成的模式,这些模式描述了要匹配的文本的特征。
使用正则表达式,您可以执行各种文本操作,如搜索、替换、验证和提取。它通常用于编程语言、文本编辑器和命令行工具中。
正则表达式中的一些常见的特殊字符包括:
1、元字符(Metacharacters):例如 .
表示任何字符,^
表示字符串的起始,$
表示字符串的结尾,\b
表示单词边界等。
2、字符类(Character Classes):使用 []
来定义一个字符类,例如 [abc]
表示匹配字符 a
、b
或 c
中的任何一个。
3、量词(Quantifiers):用于指定匹配模式的重复次数,例如 *
表示前一个字符可以重复 0 次或更多次,+
表示前一个字符可以重复 1 次或更多次,?
表示前一个字符可以重复 0 次或 1 次。
4、分组和引用(Grouping and Backreferences):使用 ()
来创建一个分组,并可以在后续的表达式中引用该分组的内容。
5、转义字符(Escape Characters):用于转义特殊字符,例如 \.
表示匹配字符 .
本身,而不是任意字符。
正则表达式的应用非常广泛,例如在网页爬取中提取特定的信息、验证用户输入的合法性、搜索文本中的指定模式等等。但是,正则表达式有时候会比较复杂和难以理解,因此需要一定的学习和实践才能熟练应用。