- HTTP库
- requests - 人性化的HTTP请求库。(推荐使用)
- urllib和urllib2 - Python2、Python3自带的http请求库
- grequests – requests 库 + gevent ,用于异步 HTTP 请求。
- httplib2 – 全面的 HTTP 客户端库。
- treq – 类似 requests 的Python API 构建于 Twisted HTTP 客户端之上。
- HTML解析库
- BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。(推荐)
- cssutils – 一个 Python 的 CSS 库。
- html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。
- lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。(推荐)
- re - 正则表达式,规则过于强大以至于难以操作
- 网站爬取库
- Scrapy – 一个快速高级的屏幕爬取及网页采集框架。(推荐)
- Grab – 站点爬取框架。
- portia – Scrapy 可视化爬取。
- pyspider – 一个强大的爬虫系统。
网友评论