网页解析器本质就是把网页翻译成网页的源代码,从中我们可以提取想要的信息。
而网页的源代码就是html+css+javascript
结构化解析,说白了,就是按照标签一层层的开始,从最开始的<html>标签,然后同层次的<head><body>等依次展开,像一棵树一样,叫dom树
而反映到代码中,只需要引入一个专门用来解析的包,知道解析网页的一些方法即可。
常用网页解析工具
1、re正则匹配(属于模糊匹配)引入re包即可,在python3中,re为内置包
例:re.findall(p,s,[f])方法
p=r'ss_\w+'
s='SS_AA ss_aa'
m=re.findall(p,s,re.I)#re.i代表不区别大小写
print(m)#最终输出结果为【‘SS_AA’,ss_aa】
2、python自带html.parser
lxml解析器
用法:利用beautifulsoup4中的方法
例:需要引入requests,bs4
用法:soup=bs4.beautifulsoup(html.txt,"html.parser")#html.txt是获取的网页源代码,可能过requests.get(url)获取
soup=bs4.beautifulsoup(html.txt,"html.parser")
或者soup=bs4.beautifulsoup(html.txt,"lxml.parser")
然后利用soup.findall()方法来寻找标签中的内容即可。
网友评论