python自带urllib、re
requests 用于发送request并接受response
selenium 用于驱动浏览器,一些JS渲染的网页用requests不能正常获取,要用这个来模拟浏览器,获得渲染后的网页内容。
selenium需要配合chrome driver或phantomjs使用。前面的会驱动一个chrome浏览器,后面的是一个无界面浏览器。
lxml 提供了xpath解析方式
beautifulsoup4 依赖于lxml,也用于网页解析
pymysql 用于操作mysql数据库
pymongo 用于操作mongoDB数据库
redis 用于操作redis数据库
flask 是一个web框架,用于代理信息的获取和存储
django 一个web框架,用于做一个管理系统,管理分布式爬虫和主机信息
网友评论