Python工具 | 9个用来爬取网络站点的 Python 库

作者: 一墨编程学习 | 来源:发表于2019-04-24 16:59 被阅读5次

1️⃣Scrapy

一个开源和协作框架,用于从网站中提取所需的数据。 以快速,简单,可扩展的方式。

2️⃣cola

一个分布式爬虫框架。

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

4️⃣feedparser

通用 feed 解析器。

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。 使用 Grab,您可以构建各种复杂性的 Web scraper,从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。 与 HTML 文档的 DOM 树交互。

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。 使用 Portia 可以注释一个网页以识别您想要提取的数据,Portia 将根据这些注释了解如何从类似页面中抓取数据。

8️⃣pyspider

一个强大的爬虫系统。

9️⃣RoboBrowser

一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。

如果大家想找一个Python学习环境,可以加入我们的Python学习群: 784758214 ,自己是一名高级python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、人工智能、机器学习等。送给正在学习python的小伙伴!每天会准时的讲一些项目实战案例,分享一些学习的方法和需要注意的小细节,,这里是python学习者聚集地

点击:加入

相关文章

网友评论

    本文标题:Python工具 | 9个用来爬取网络站点的 Python 库

    本文链接:https://www.haomeiwen.com/subject/dnwggqtx.html