[Python] 与爬虫相关的一些Python模块

作者: 何幻 | 来源:发表于2016-11-30 00:19 被阅读70次

[Python] 与爬虫相关的一些Python模块
Python监控小MM/小GG微博，了解一下？
用Python实现监控小姐姐/小哥哥微博，了解一下？
神级装逼技能来了！利用Python发邮件远程控制自己电脑！不要太
python爬虫小记----百度翻译api的使用
python网络爬虫基础模块安装
Python开发制作酷狗和QQ音乐下载器
Python制作经典小游戏：推箱子
2.常用的爬虫模块及使用方法
Python第二天（爬虫相关）

builtwith：识别网站所用技术
python-whois：寻找网站所有者
urllib2：下载网页，并返回其HTML
re：正则表达式
beautifulsoup4：解析网页，并提供定位内容的便捷接口
Lxml：XML解析库（非pip install
pymongo：MongoDB的Python封装库
zlib：压缩
threading：线程
json：将字符串解析成一个字典
PyQt，PySide：WebKit渲染引擎的Python接口（非pip install
selenium：是浏览器自动化的API接口（注：需要brew install chromedriver）
cookielib：cookie模块
browsercookie：得到浏览器的cookie
mechanize：不再需要管理cookie的表单交互接口
Pillow：提供了便捷的Image类，包含了很多处理验证码图像的方法
pytesseract：Tesseract OCR引擎的Python封装库
Scrapy：爬虫框架
virtualenv：虚拟Python环境
Portia：点击要抓取的网页来创建爬虫（非pip install
Scrapely：使用训练数据建立从网页中抓取哪些内容的模型，并在以后抓取相同结构的其他网页时应用该模型（非pip install