美文网首页
0001-正则表达式

0001-正则表达式

作者: AndyFfeng | 来源:发表于2019-05-24 14:00 被阅读0次

正则表达式是用来进行文本处理的技术,是语言无关的,在几乎所有语言中都有实现。

一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

就像通配符“*.jpg”、“%ab%”,它是对字符串进行匹配的特殊字符串。

元字符

.:匹配任何单个字符。例如正则表达式“b.g”能匹配如下字符串:“big”、“bug”、“b g”,但是不匹配“buug”,“b..g”可以匹配“buug”。

[ ] :匹配括号中的任何一个字符。例如正则表达式“b[aui]g”匹配bug、big和bag,但是不匹配beg、baug。可以在括号中使用连字符“-”来指定字符的区间来简化表示,例如正则表达式[0-9]可以匹配任何数字字符,这样正则表达式“a[0-9]c”等价于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串;还可以制定多个区间,例如“[A-Za-z]”可以匹配任何大小写字母,“[A-Za-z0-9]”可以匹配任何的大小写字母或者数字。

( ) :将() 之间括起来的表达式定义为“组”(group),并且将匹配这个表达式的字符保存到一个临时区域,这个元字符在字符串提取的时候非常有用。把一些字符表示为一个整体。改变优先级、定义提取组两个作用。

| :将两个匹配条件进行逻辑“或”运算。'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。

:匹配0至多个在它之前的子表达式,和通配符没关系。例如正则表达式“zo”能匹配“z” 、“zo”以及“zoo”;因此“.”意味着能够匹配任意字符串。"z(b|c)"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)"能匹配z、zab、zabab(用括号改变优先级)。

  • :匹配前面的子表达式一次或多次,和*对比(0到多次)。例如正则表达式9+匹配9、99、999等。 “zo+”能匹配“zo”以及“zoo” ,不能匹配"z"。

? :匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 。一般用来匹配“可选部分”。

{n} :匹配确定的n 次。"zo{2}"→zoo。例如,“e{2}” 不能匹配“bed”中的“e”,但是能匹配“seed”中的两个“e”。

{n,} :至少匹配n次。例如,“e{2,}”不能匹配“bed”中的“e”,但能匹配 “seeeeeeeed”中的所有“e”。

{n,m} :最少匹配n 次且最多匹配m 次。“e{1,3}”将匹配“seeeeeeeed”中的前三个“e”。

^(shift+6) :匹配一行的开始。例如正则表达式“^regex”能够匹配字符串“regex我会用”的开始,但是不能匹配“我会用regex”。

^另外一种意思:非!

:匹配行结束符。例如正则表达式“浮云” 能够匹配字符串“一切都是浮云”的末尾,但是不能匹配字符串“浮云呀”

简写表达式

正则表达式是与语言无关真的就是想表达\d。

注意这些简写表达式是不考虑转义符的,这里的\就表示字符\,而不是C#字符串级别的\,在C#代码中需要使用@或者\双重转义。区分C#级别的转移和正则表达式级别的转移,恰好C#的转义符和正则表达式的转义符都是\而已。正则表达式的转移是在C#之后的(层层盘剥)。把C#的转义符想成%就明白了。在C#看来@"-"就是-这个普通的字符串,只不过在正则表达式分析引擎看来他有了特殊含义。"\d"或者@"\d"

\d:代表一个数字,等同于[0-9]
\D:代表非数字,等同于[^0-9]
\s:代表换行符、Tab制表符等空白字符
\S:代表非空白字符
\w:匹配字母或数字或下划线或汉字,即能组成单词的字符
\W:非\w ,等同于[^\w]

d:digital;s:space、w:word。大写就是“非”

.Net中的正则表达式

正则表达式在.Net就是用字符串表示,这个字符串格式比较特殊,无论多么特殊,在C#语言看来都是普通的字符串,具体什么含义由Regex类内部进行语法分析。
正则表达式(RegularExpression)的主要类:Regex.IsMatch方法用于判断一个字符串是否匹配正则表达式。
字符串匹配例子:

Regex.IsMatch("bbbbg","^b.*g $");   
Regex.IsMatch("bg","^b.*g $ ");
Regex.IsMatch("gege","^b.*g $ ");

一定不能忘了^和$,否则也能匹配yesbagit
字符串提取
正则表达式还可以用来进行字符串提取

Match match =Regex.Match("age=30", @"^(. +)=(.+)$");
if (match.Success)
{
    Console.WriteLine(match.Groups[1].Value);
    Console.WriteLine(match.Groups[2] .Value);
}

match的Success属性表示是否匹配成功;正则表达式中用()将要提取的内容括起来,然后就可以通过Match的Groups属性来得到所有的提取元素,注意Groups的序号是从1开始的,0有特殊含义

贪婪模式与非贪婪模式

从文本提取出名字:
Matchmatch = Regex.Match("大家好。我是S.H.E。我22岁了。我病了,呜呜。fffff","我是(.+)。");//没有加^$。
看结果。+、的匹配默认是贪婪(greedy)的:尽可能多的匹配,直到“再贪婪一点儿”其后的匹配模式就没法匹配为止。
在+、
后添加?就变成非贪婪模式(? 的另外一个用途):让其后的匹配模式尽早的匹配。修改成"我是(.+?)。"
一般开发的时候不用刻意去修饰为非贪婪模式,只有遇到bug的时候发现是贪婪模式的问题再去解决。因为贪婪效率高。

匹配组

正则表达式可以从一段文本中将所有符合匹配的内容都输出出来。Match获得的是匹配的第一个。Regex.Matches方法可以获得所有的匹配项。注意区别:匹配和group的区别:
MatchCollectionmatches = Regex.Matches("大家好,我是克鲁斯(cluz)、我是杰克逊(MJ)、我是汤姆(tom)、复方法", @"我是(\w+?)((\w+?))、");//匹配出符合正则表达式的多个项

            for (int i = 0; i < matches.Count;i++)
            {
                Match match = matches[i];
                Console.WriteLine(match.Value);
                string cname =match.Groups[1].Value;
                string ename =match.Groups[2].Value;
                Console.WriteLine("中文名:{0},英文名:{1}",cname,ename);
            }

相关文章

  • 0001-正则表达式

    正则表达式是用来进行文本处理的技术,是语言无关的,在几乎所有语言中都有实现。 一个正则表达式就是由普通字符以及特殊...

  • Centos 7 安装Xen

    0001-安装xen 下载安装xen源 添加xen的源 更新centos内核yum --enablerepo=ce...

  • 蚂蚁Java互联网架构师第1期高端

    教程目录 ├─0001-多线程快速入门.zip ├─0002-多线程之间实现同步.zip ├─0003--多线程之...

  • 0101-Shell流程控制

    0001- if else Shell的流程控制不可为空,如果else分支没有语句执行,就不要写这个else。 1...

  • 0001-生成促销券

    代码 新知识 返回一个包含所有大小写字母+数字的字符串 从一个列表,或者字符串或者元组中随机选择一个值

  • 0001-进程状态理解

    1、为了对进程从产生到消亡的整个过程进行跟踪和描述,就需要定义各种进程的各种状态并制定相应的状态转换策略,以此来控...

  • 0001-多维度技能

    (≧∇≦) 呜呜呜。 开始玩日更啦。 不知道自己能坚持多少天。 序号0001就知道是第一篇。 4位数的序号就知道目...

  • 0001-两数之和

    两数之和 方案一 原数组排序,我们用两个指针分别指向数组首尾两个数,如果两个数和正好为target,则将这两个数一...

  • 【派】0001-前戏--大采购

    【派】0001-前戏--大采购 [TOC] 可能有人觉得这是广告,但笔者只能说,我又没收卖家钱,相反我还给卖家钱了...

  • 蚂蚁课堂二期(每特学院二期)-2期-视频大纲

    蚂蚁课堂2期视频公开-请大家多多支持蚂蚁课堂 密码: tt53 0001-蚂蚁课堂(每特学院)-2期-多线程快速入...

网友评论

      本文标题:0001-正则表达式

      本文链接:https://www.haomeiwen.com/subject/yerizqtx.html