1. 简单的爬虫
1)需要从网站上爬取文章,并上传至服务器,实现模拟用户发帖。
GitHub地址:https://github.com/JohonseZhang/Scrapy-Spider-based-on-Python3
2)爬取类似今日头条、淘宝、京东等动态加载网站的需要配合selenium和phantomjs框架:
https://github.com/JohonseZhang/python3-scrapy-spider-phantomjs-selenium
主要是采用 Python 编写的scrapy框架,scrapy是目前非常热门的一种爬虫框架,它把整个爬虫过程分为了多个独立的模块,并提供了多个基类可以供我们去自由扩展,让爬虫编写变得简单而有逻辑性。并且scrapy自带的多线程、异常处理、以及强大的自定义Settings也让整个数据抓取过程变得高效而稳定。scrapy-redis:一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。github地址:https://github.com/darkrho/scrapy-redismongodb 、mysql 或其他数据库:针对不同类型数据可以根据具体需求来选择不同的数据库存储。结构化数据可以使用mysql节省空间,非结构化、文本等数据可以采用mongodb等非关系型数据提高访问速度。具体选择可以自行百度谷歌,有很多关于sql和nosql的对比文章。其实对于已有的scrapy程序,对其扩展成分布式程序还是比较容易的。
网友评论