美文网首页Python新世界python热爱者
七款必备的Python爬虫库,你知道几个?

七款必备的Python爬虫库,你知道几个?

作者: 48e0a32026ae | 来源:发表于2018-12-03 15:34 被阅读0次

    很多你需要的信息数据都是在网站内,虽然有些网站的数据会以整洁、结构化的形式呈现,但大部分网站却无法做到这样。因此,当你想要获得一些数据的时候,你需要一些爬虫工具帮助抓取,然后再对其进行分析。今天,将介绍一些很棒的Python爬虫工具

    学习Python中有不明白推荐加入交流群

                    号:516107834

                    群里有志同道合的小伙伴,互帮互助,

                    群里有不错的学习教程!

    1、PyRailgun

    首先推荐的是PyRailgun,它是一个Web爬虫工具,具有强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看。它支持拓展、支持任务优先级、重试、定期抓取,Pyspider同时支持Python 2和Python 3,为了更快地爬行,可以使用分布式格式,同时使用多个爬行器。

    PyRailgun 有一个全面的文档记录了它的基本用法,包括示例代码片段,你可以通过在线演示了解它的UI界面,根据Apache 2 许可。(GitHub地址:https://github.com/binux/pyspider)

    2、MechanicalSoup

    MechanicalSoup是一个爬虫库,它是围绕非常流行、通用的HTML解析库Beautiful Soup构建的。如果你的爬行需求非常简单,只需要选中几个框或输入一些文本,并且你不想构建一个自己的爬行器,那么这是一个很好的选择。

    MechanicalSoup获得了麻省理工学院的许可。有关如何使用它的更多信息,可以查看GitHub上的源文件示例,不过,该项目目前没有特别全面的文档。(GitHub地址:https://github.com/hickford/MechanicalSoup)

    3、Scrapy

    Scrapy 是一个由活跃社区维护的爬虫框架,你可以使用它创建自己的抓取工具,除了抓取和解析,它还可以轻松导出以JSON或CSV等多种格式收集的数据,并将数据存储在你选择的后端。它还提供了许多用于cookie处理、限制爬行深度等任务的内置扩展,以及用于扩展的API。(GitHub地址:https://scrapy.org/)

    4、Cola

    Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。如果你正在寻找一个支持Python 2的爬虫框架,那它是个不错的选择,但是,它已经两年多没有更新了。(详情:https://github.com/chineking/cola)

    5、Portia

    Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要提取的数据,不需要任何编程知识也可以完成有规则的开发。这些规则可以在#Scrapy#中使用,用于抓取页面。(详情:https://github.com/scrapinghub/portia)

    6、Newspaper

    Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言并且unicode编码,它还可以提取和检测语言,如果你没有指定语言它还会自动检测。Newspaper 是一个Python 3 爬虫库,已经弃用了Python 2 的分支。(GitHub地址:https://github.com/codelucas/newspaper)

    7、Grab

    Grab是一个python web抓取框架。Grab提供了许多有用的方法来执行网络请求,抓取网站并处理已删除的内容:

    IDN支持

    使用Web表单工具

    灵活定制的HTTP请求

    自动字符集检测

    ......(GitHub地址:https://github.com/lorien/grab)

    相关文章

      网友评论

        本文标题:七款必备的Python爬虫库,你知道几个?

        本文链接:https://www.haomeiwen.com/subject/rvbycqtx.html