1.安装
pip install lxml
pip install html5lib
pip install beautifulsoup4
2.比较
各种****html****解析器的优缺点做一下对比:
3.总结
从文档的优缺点汇总表中:
1. html.parser-BeautifulSoup(markup,"html.parser")
-
优势:包括电池,不错的速度,宽大(从Python 2.7.3和3.2开始)。
-
缺点:不太宽大(在Python 2.7.3或3.2.2之前)
- lxml-BeautifulSoup(markup,"lxml")
-
优点:非常快,宽大
-
缺点:外部C依赖
- html5lib-BeautifulSoup(markup,"html5lib")
-
优点:极为宽松,以与网络浏览器相同的方式解析页面,创建有效的HTML5
-
缺点:非常慢,外部Python依赖
主要区别在BeautifulSoup文档中突出显示:
- 解析器之间的差异
为什么您更喜欢一个解析器而不是其他解析器的基本原因:
-
html.parser-内置-不需要额外的依赖项
-
html5lib-最宽大-如果HTML损坏,最好使用它
-
lxml-最快
网友评论