解析html是爬虫后的重要的一个处理数据的环节。一下记录解析html的几种方式。
先介绍基础的辅助函数,主要用于获取html并输入解析后的结束
![](https://img.haomeiwen.com/i13406307/1f4537b675866244.png)
1,lxml.html的方式进行解析,
![](https://img.haomeiwen.com/i13406307/90db32f8a84dbb1c.png)
2,使用BeautifulSoup,不多说了,大家网上找资料看看
![](https://img.haomeiwen.com/i13406307/8d4458cd409b55a7.png)
3,使用SGMLParser,主要是通过start、end tag的方式进行了,解析工程比较明朗,但是有点麻烦,而且该案例的场景不太适合该方法,(哈哈)
![](https://img.haomeiwen.com/i13406307/22f02be2a272c305.png)
4,HTMLParaer,与3原理相识,就是调用的方法不太一样,基本上可以公用,
![](https://img.haomeiwen.com/i13406307/bfccc1571b73a8c0.png)
3,4对于该案例来说确实是不太适合,趁现在有空记录下来,功学习使用!
网友评论