美文网首页程序员IT课程分享开源软件实验室
9个用来爬取网络站点的 Python 库

9个用来爬取网络站点的 Python 库

作者: 蓝桥云课 | 来源:发表于2019-01-18 15:55 被阅读10次

    上期入口:10个不到500行代码的超牛Python练手项目

    1️⃣Scrapy

    一个开源和协作框架,用于从网站中提取所需的数据。 以快速,简单,可扩展的方式。

    官网https://scrapy.org/

    相关课程推荐:Python 网站信息爬虫

    2️⃣cola

    一个分布式爬虫框架。

    GitHub:https://github.com/chineking/cola

    3️⃣Demiurge

    基于 PyQuery 的爬虫微型框架。

    官网:https://demiurge.readthedocs.io/en/v0.2/

    4️⃣feedparser

    通用 feed 解析器。

    官网:https://pythonhosted.org/feedparser/

    5️⃣Grab

    Grab 是一个用于构建 Web scraper 的 python 框架。 使用 Grab,您可以构建各种复杂性的 Web scraper,从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。 与 HTML 文档的 DOM 树交互。

    官网https://grablib.org/en/latest/

    6️⃣MechanicalSoup

    用于自动和网络站点交互的 Python 库。

    GitHub:https://github.com/MechanicalSoup/MechanicalSoup

    7️⃣portia

    Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。 使用 Portia 可以注释一个网页以识别您想要提取的数据,Portia 将根据这些注释了解如何从类似页面中抓取数据。

    GitHub:https://github.com/scrapinghub/portia

    8️⃣pyspider

    一个强大的爬虫系统。

    官网:http://docs.pyspider.org/

    9️⃣RoboBrowser

    一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。

    官网:https://scrapy.org/

    关于技术清单技术清单是由实验楼整合、梳理的一系列知识点合辑;每辑都有MD,PDF和思维导图多样呈现,并提供下载。本期为Python系列,包含5篇精选清单,下载方式如下:



    相关阅读

    8个爽滑的Windows小软件,不好用你拿王思葱砸死我

    60人,42天,死磕机器学习,结果如下。

    武侠版编程语言...Java像张无忌还是令狐冲?

    大量机器学习&深度学习资料

    技术变现,到底怎么变?

    相关文章

      网友评论

        本文标题:9个用来爬取网络站点的 Python 库

        本文链接:https://www.haomeiwen.com/subject/nemndqtx.html