2018-08-30

作者: 吴某人_0ad9 | 来源:发表于2018-08-30 19:23 被阅读0次

2018-09-01
2018-09-05
hexo博客同时托管到github和coding
420期六项精进-日精进打卡
2018-08-31
2018-08-30
懂你 L4-U1-3-Vocabulary-Dental Pro
所谓浪漫
java.lang.IllegalStateException:
日精打卡60

字符：
一般字符：匹配自身。
. : 匹配除“\n” 之外的任意字符，在DOTALL 模式中也能匹配换行符
\ : 转义字符使后一个字符改变原来的意思。
[....] :字符集字符类可以给出值得取值范围，第一个字符如果是^表示取反
预定义字符集
\d :数字[0-9]
\D: 非数字 [^\d]
\s :空白字符。 [空格 \t\r\n\f\v]
\S : 非空白字符
\w : 单词字符
\W :非单词字符
数量词
匹配前一个字符0次或无限次
匹配前一个字符1次或无限次
？匹配前一个字符0次或1次
{m} 匹配前一个字符m次
{m,n} 匹配前一个字符m次至n次
？+？?? {m,n}? 变成非贪婪模式。
^ \A 匹配字符开头
$ \Z 匹配字符串末尾
\b .匹配单词的边界
\B [^\b]
逻辑分组
| 或用括号括住
(.....) . 分组有编号从1 开始
(?p<name>...) 分组，除了原有的编号外在指定一个额外名额
<number> 引用编号为<number>的分组匹配到的字符串。
(?p=name) 引用别名的分组匹配到的字符串
compile 函数
compile 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下：
import re 将正则表达式编译成 Pattern 对象 pattern = re.compile(r'\d+')
● match 方法：从起始位置开始查找，一次匹配
● search 方法：从任何位置开始查找，一次匹配
● findall 方法：全部匹配，返回列表
● finditer 方法：全部匹配，返回迭代器
● split 方法：分割字符串，返回列表
● sub 方法：替换
match方法介绍
match 方法用于查找字符串的头部（也可以指定起始位置），它是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果。它的一般使用形式如下：
当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。
导入re模块
import re
使用match方法进行匹配操作
result = re.match(正则表达式,要匹配的字符串)
如果上一步匹配到数据的话，可以使用group方法来提取数据
result.group()
re模块的高级用法
search:
search 方法用于查找字符串的任何位置，它也是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果，它的一般使用形式如下：
当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。
需求：匹配出文章阅读的次数
coding=utf-8
import re
ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()
运行结果：
'9999'
findall
上面的 match 和 search 方法都是一次匹配，只要找到了一个匹配的结果就返回。然而，在大多数时候，我们需要搜索整个字符串，获得所有匹配的结果。
findall 方法的使用形式如下：
findall 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。
需求：统计出python、c、c++相应文章阅读的次数
coding=utf-8
import re
ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)
运行结果：
['9999', '7890', '12345']
sub
sub 方法用于替换。它的使用形式如下：
需求：将匹配到的阅读次数加1
方法1：
coding=utf-8
import re
ret = re.sub(r"\d+", '998', "python = 997")
print(ret)
运行结果：
python = 998
方法2：
coding=utf-8
import re
def add(temp):
strNum = temp.group()
num = int(strNum) + 1
return str(num)
ret = re.sub(r"\d+", add, "python = 997")
print(ret)
ret = re.sub(r"\d+", add, "python = 99")
print(ret)
运行结果：
python = 998
python = 100
练习
从下面的字符串中取出文本
<div>
岗位职责：
完成推荐算法、数据统计、接口、后台等服务器端相关工作


必备要求：
良好的自我驱动力和职业素养，工作积极主动、结果导向


技术要求：
1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式
2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架
3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种

4、掌握NoSQL、MQ，熟练使用对应技术解决方案
5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js


加分项：
大数据，数理统计，机器学习，sklearn，高性能，大并发。
</div>
参考答案:
re.sub(r"<[^>]>| |\n", "", test_str)
split
根据匹配进行切割字符串，并返回一个列表
需求：切割字符串“info:xiaoZhang 33 shandong”
coding=utf-8
import re
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)
运行结果：
['info', 'xiaoZhang', '33', 'shandong']
finditer
finditer方法的行为跟 findall 的行为类似，也是搜索整个字符串，获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果（Match 对象）的迭代
import re
ret = re.finditer('ha',baseStr)
print(type(ret))
print(ret)
for item in ret:
print(type(item))
print(item.group())
结果： <class 'callable_iterator'> <callable_iterator object at 0x7fb06cc15828> <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha <class '_sre.SRE_Match'> ha
*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复