美文网首页
python标准库+内置函数+第三方库: 2.网络抓取和解析

python标准库+内置函数+第三方库: 2.网络抓取和解析

作者: 大白python | 来源:发表于2019-08-18 21:09 被阅读0次
python标准库+内置函数+第三方库

欲善其事,必先利其器

这其器必是python的标准库+内置函数,话说许多第三方库, 也是对标准库的使用,进行封装,使得使用起来更方便。

这些库以使用场景来分类:

一. 文件读写
二. 网络抓取和解析
三. 数据连接
四. 数清洗转换
五. 数据计算和统计分析
六. 图像和视频处理
七. 音频处理
八. 数据挖掘/机器学习/深度学习
九. 数据可视化
十. 交互学习
十一. 集成开发

二、网络抓取和解析

网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。

# 2.1 requests
# 类型:第三方库
# 描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息

# 2.2 urllib
# 类型:Python标准库
# 描述:Python自带的库,简单的读取特定URL并获得返回的信息

# 2.3 urllib2
# 类型:Python标准库
# 描述:Python自带的库,读取特定URL并获得返回的信息,相    对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等

# 2.4 urlparse
# 类型:Python标准库
# 描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等

# 2.5 HTMLParser
# 类型:Python标准库
# 描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析

# 2.6 Scapy
# 类型:第三方库
# 描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取

# 2.7 Beautiful Soup
# 类型:第三方库
# 描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用

相关文章

网友评论

      本文标题:python标准库+内置函数+第三方库: 2.网络抓取和解析

      本文链接:https://www.haomeiwen.com/subject/qtpdsctx.html