美文网首页我爱编程
Scrapy 爬虫的几个例子

Scrapy 爬虫的几个例子

作者: 鏡澤 | 来源:发表于2018-03-20 11:02 被阅读0次

    1. 简单的爬虫

    1)需要从网站上爬取文章,并上传至服务器,实现模拟用户发帖。

    GitHub地址https://github.com/JohonseZhang/Scrapy-Spider-based-on-Python3 

    2)爬取类似今日头条、淘宝、京东等动态加载网站的需要配合selenium和phantomjs框架:

    https://github.com/JohonseZhang/python3-scrapy-spider-phantomjs-selenium 

    主要是采用 Python 编写的scrapy框架,scrapy是目前非常热门的一种爬虫框架,它把整个爬虫过程分为了多个独立的模块,并提供了多个基类可以供我们去自由扩展,让爬虫编写变得简单而有逻辑性。并且scrapy自带的多线程、异常处理、以及强大的自定义Settings也让整个数据抓取过程变得高效而稳定。scrapy-redis:一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。github地址:https://github.com/darkrho/scrapy-redismongodb 、mysql 或其他数据库:针对不同类型数据可以根据具体需求来选择不同的数据库存储。结构化数据可以使用mysql节省空间,非结构化、文本等数据可以采用mongodb等非关系型数据提高访问速度。具体选择可以自行百度谷歌,有很多关于sql和nosql的对比文章。其实对于已有的scrapy程序,对其扩展成分布式程序还是比较容易的。

    相关文章

      网友评论

        本文标题:Scrapy 爬虫的几个例子

        本文链接:https://www.haomeiwen.com/subject/dopvqftx.html