美文网首页Python
[Python] 与爬虫相关的一些Python模块

[Python] 与爬虫相关的一些Python模块

作者: 何幻 | 来源:发表于2016-11-30 00:19 被阅读70次

builtwith:识别网站所用技术
python-whois:寻找网站所有者
urllib2:下载网页,并返回其HTML
re:正则表达式
beautifulsoup4:解析网页,并提供定位内容的便捷接口
Lxml:XML解析库(非pip install
pymongo:MongoDB的Python封装库
zlib:压缩
threading:线程
json:将字符串解析成一个字典
PyQt,PySide:WebKit渲染引擎的Python接口(非pip install
selenium:是浏览器自动化的API接口(注:需要brew install chromedriver)
cookielib:cookie模块
browsercookie:得到浏览器的cookie
mechanize:不再需要管理cookie的表单交互接口
Pillow:提供了便捷的Image类,包含了很多处理验证码图像的方法
pytesseract:Tesseract OCR引擎的Python封装库
Scrapy:爬虫框架
virtualenv:虚拟Python环境
Portia:点击要抓取的网页来创建爬虫(非pip install
Scrapely:使用训练数据建立从网页中抓取哪些内容的模型,并在以后抓取相同结构的其他网页时应用该模型(非pip install


参考:
用Python写网络爬虫

相关文章

网友评论

    本文标题:[Python] 与爬虫相关的一些Python模块

    本文链接:https://www.haomeiwen.com/subject/otvzpttx.html