美文网首页python入门基础学习
给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

作者: 编程新视野 | 来源:发表于2018-12-04 14:10 被阅读4次
    给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟! 给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

    异步treq - 基于twisted、与requests类似的APIaiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)

    网络爬虫框架

    添加小编学习群813542856即可获得10套PDF以及python全套学习资料

    全能型爬虫grab - 网络爬虫框架(基于pycurl/multicurl)scrapy - 网络爬虫框架(基于twisted)pyspider - 一个强力的爬虫系统cola - 一个分布式爬虫框架

    其他portia - 基于Scrapy的可视化爬虫restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目demiurge - 基于PyQuery的微型爬虫框架

    给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

    文本处理

    解析及操作文本的库

    通用difflib - 差异化计算工具(Python标准库)Levenshtein - 快速计算编辑距离及字符串相似度fuzzywuzzy - 模糊字符串比匹配esmre - 正则表达式加速器.ftfy - 将Unicode文本自动整理减少碎片化

    转换unidecode - Unicode转化为ASCII文本

    给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

    特殊格式处理

    处理特编辑特殊字符格式的库

    通用tablib - 处理XLS, CSV, JSON, YAML等表格数据的库textract - 从任何文档中提取文本,支持Word, PowerPoint, PDF等messytables - 杂乱的表格数据解析rows - 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT -- 即将支持更多)

    Officepython-docx - 阅读,查询和修改Microsoft Word 2007/2008 docx文件xlwt / xlrd - 从Excel读取及写入数据和格式化信息XlsxWriter - 用于穿件Excel .xlsx文件的Python模块xlwings - 一个BSD许可的库,是Excel与Python互相调用更加简单openpyxl - 可读取、编辑Excel 2010xlsx/xlsm/xltx/xltm文件的库Marmir - 提取Python数据结构并将其转化为表格的库

    给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟! 给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟! 给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

    多进程并发

    threading - Python标准库的多线程运行。因为python GIL限制,对于I/O密集型任务很有效,对于CPU绑定的任务没用multiprocessing - 多进程标准库celery - 基于分布式消息传递的异步任务队列/作业队列concurrent-futures - concurrent.futures模块提供用于异步执行callable的高级接口

    异步

    异步网络编程库

    asyncio - 异步I/O,时间循环,协同程序和任务(Python 3.4以上版本的Python标准库)Twisted - 基于事件驱动的网络引擎框架Tornado - 一个Web框架及异步网络库pulsar - Python事件驱动的并发框架diesel - Python的基于Greenlet的I/O框架gevent - 一个基于协同程序的Python网络库,使用greenleteventlet - 有WSGI支持的异步框架Tomorrow - 异步代码的魔法

    队列

    celery - 基于分布式消息传递的异步任务队列/作业队列huey - 小型多线程任务队列mrq - Mr. Queue - 使用redis & Gevent 的Python分布式工作任务队列RQ - 基于Redis的轻量级任务队列管理器simpleq - 一个简单的,可无限扩展,基于Amazon SQS的队列python-gearman - Gearman的Python API

    云计算

    picloud - 在云端执行Pythondominoup.com - 在云端执行R, Python及matlab代码

    电子邮件

    电子邮件处理库

    flanker - 电子邮件及MIME处理库Talon - Mailgun库用于提取消息的报价和签名

    URL和网络地址操作

    URL和网络地址操作库

    URLfurl - 一个小的Python库,使得操纵URL简单化purl - 一个简单的不可改变的URL以及一个干净的用于调试和操作的APIurllib.parse - 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)tldextract - 使用公共后缀列表从URL的注册域和子域中准确分离TLD网络地址netaddr - 用于显示和操纵网络地址的Python库

    网页内容提取

    网页内容提取库

    HTML页面的文本和元数据newspaper - 用Python进行新闻提取、文章提取和内容策展html2text - 将HTML转为Markdown格式文本python-goose - HTML内容/文章提取器lassie - 人性化的网页内容检索工具micawber - 一个从网址中提取丰富内容的小型库sumy -一个自动汇总文本文件和HTML网页的模块Haul - 一个可扩展的图像爬虫python-readability - arc90 readability工具的快速Python接口scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器libextract - 从网站提取数据

    视频youtube-dl - 一个从YouTube下载视频的小型命令行工具you-get - Python3写成的YouTube/Youku/Niconico视频下载工具

    WikiWikiTeam - 下载并保存wkiks的工具

    WebSocket

    用于WebSocket的库

    Crossbar - 开源的应用消息传递路由器(Python实现的用于Autobahn的WebSocket和WAMP)AutobahnPython - 提供了WebSocket协议和WAMP协议的Python实现并且开源WebSocket-for-Python - Python 2和3以及PyPy的WebSocket客户端和服务器库

    DNS解析

    dnsyo - 在全球超过1500个的DNS服务器上检查你的DNSpycares - ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库

    计算机视觉

    OpenCV - 开源计算机视觉库SimpleCV - 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)mahotas - 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型

    代理服务器

    shadowsocks - 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)tproxy - tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置

    杂项

    user_agent - 此模块用于生成随机,有效的Web导航器的配置和用户代理HTTP header

    其他

    awesome-pythonpycrumbspython-github-projectspython_referencepythonidae

    相关文章

      网友评论

        本文标题:给你150多个爬虫资源,你还怕入不了门?不存在的,大兄弟!

        本文链接:https://www.haomeiwen.com/subject/jyvmcqtx.html