2021-04-19python爬虫之网页解析器

作者: 匿名老师 | 来源:发表于2021-04-19 15:35 被阅读0次

网页解析器本质就是把网页翻译成网页的源代码，从中我们可以提取想要的信息。

而网页的源代码就是html+css+javascript

结构化解析，说白了，就是按照标签一层层的开始，从最开始的<html>标签，然后同层次的<head><body>等依次展开，像一棵树一样，叫dom树

而反映到代码中，只需要引入一个专门用来解析的包，知道解析网页的一些方法即可。

常用网页解析工具

1、re正则匹配（属于模糊匹配）引入re包即可，在python3中，re为内置包

例：re.findall(p,s,[f])方法

p=r'ss_\w+'

s='SS_AA ss_aa'

m=re.findall(p,s,re.I)#re.i代表不区别大小写

print(m)#最终输出结果为【‘SS_AA’,ss_aa】

2、python自带html.parser

lxml解析器

用法：利用beautifulsoup4中的方法

例：需要引入requests,bs4

用法：soup=bs4.beautifulsoup(html.txt,"html.parser")#html.txt是获取的网页源代码，可能过requests.get(url)获取

soup=bs4.beautifulsoup(html.txt,"html.parser")

或者soup=bs4.beautifulsoup(html.txt,"lxml.parser")

然后利用soup.findall()方法来寻找标签中的内容即可。

网友评论

本文标题：2021-04-19python爬虫之网页解析器

本文链接：https://www.haomeiwen.com/subject/ngiilltx.html

2021-04-19python爬虫之网页解析器