美文网首页
2021-04-19python爬虫之网页解析器

2021-04-19python爬虫之网页解析器

作者: 匿名老师 | 来源:发表于2021-04-19 15:35 被阅读0次

    网页解析器本质就是把网页翻译成网页的源代码,从中我们可以提取想要的信息。

    而网页的源代码就是html+css+javascript

    结构化解析,说白了,就是按照标签一层层的开始,从最开始的<html>标签,然后同层次的<head><body>等依次展开,像一棵树一样,叫dom树

    而反映到代码中,只需要引入一个专门用来解析的包,知道解析网页的一些方法即可。

    常用网页解析工具

    1、re正则匹配(属于模糊匹配)引入re包即可,在python3中,re为内置包

    例:re.findall(p,s,[f])方法

    p=r'ss_\w+'

    s='SS_AA ss_aa'

    m=re.findall(p,s,re.I)#re.i代表不区别大小写

    print(m)#最终输出结果为【‘SS_AA’,ss_aa】

    2、python自带html.parser

    lxml解析器

    用法:利用beautifulsoup4中的方法

    例:需要引入requests,bs4

    用法:soup=bs4.beautifulsoup(html.txt,"html.parser")#html.txt是获取的网页源代码,可能过requests.get(url)获取

    soup=bs4.beautifulsoup(html.txt,"html.parser")

    或者soup=bs4.beautifulsoup(html.txt,"lxml.parser")

    然后利用soup.findall()方法来寻找标签中的内容即可。

    相关文章

      网友评论

          本文标题:2021-04-19python爬虫之网页解析器

          本文链接:https://www.haomeiwen.com/subject/ngiilltx.html