美文网首页
python标准库+内置函数+第三方库: 2.网络抓取和解析

python标准库+内置函数+第三方库: 2.网络抓取和解析

作者: 大白python | 来源:发表于2019-08-18 21:09 被阅读0次
    python标准库+内置函数+第三方库

    欲善其事,必先利其器

    这其器必是python的标准库+内置函数,话说许多第三方库, 也是对标准库的使用,进行封装,使得使用起来更方便。

    这些库以使用场景来分类:

    一. 文件读写
    二. 网络抓取和解析
    三. 数据连接
    四. 数清洗转换
    五. 数据计算和统计分析
    六. 图像和视频处理
    七. 音频处理
    八. 数据挖掘/机器学习/深度学习
    九. 数据可视化
    十. 交互学习
    十一. 集成开发

    二、网络抓取和解析

    网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。

    # 2.1 requests
    # 类型:第三方库
    # 描述:网络请求库,提供多种网络请求方法并可定义复杂的发送信息
    
    # 2.2 urllib
    # 类型:Python标准库
    # 描述:Python自带的库,简单的读取特定URL并获得返回的信息
    
    # 2.3 urllib2
    # 类型:Python标准库
    # 描述:Python自带的库,读取特定URL并获得返回的信息,相    对于urllib可处理更多HTTP信息,例如cookie、身份验证、重定向等
    
    # 2.4 urlparse
    # 类型:Python标准库
    # 描述:Python自带的URL解析库,可自动解析URL不同的域、参数、路径等
    
    # 2.5 HTMLParser
    # 类型:Python标准库
    # 描述:Python自带的HTML解析模块,能够很容易的实现HTML文件的分析
    
    # 2.6 Scapy
    # 类型:第三方库
    # 描述:分布式爬虫框架,可用于模拟用户发送、侦听和解析并伪装网络报文,常用于大型网络数据爬取
    
    # 2.7 Beautiful Soup
    # 类型:第三方库
    # 描述:Beautiful Soup是网页数据解析和格式化处理工具,通常配合Python的urllib、urllib2等库一起使用

    相关文章

      网友评论

          本文标题:python标准库+内置函数+第三方库: 2.网络抓取和解析

          本文链接:https://www.haomeiwen.com/subject/qtpdsctx.html