美文网首页
python爬虫——数据获取Xpath

python爬虫——数据获取Xpath

作者: 命运丿 | 来源:发表于2018-11-24 15:58 被阅读0次

    *准备工作

    • 了解爬虫的数据处理体系结构


      爬虫数据处理结构图.png
    • 处理数据的软件准备
      采集到的结构化数【如html网页文档数据】
    • python开发环境
    • lxml第三方库
    • 结构化数据基本理论:DOM模型

    *.结构化数据

    具备有一定的结构,由于定义的规则的数据模型,统称为结构化数据
    如:数据进行格式化展示的html文档中的数据、数据进行格式化传输的xml文档中的数据、数据进行格式化整理的Excel表格中的数据等等都是结构
    因为结构化数据具有预定义规则的数据模型,所以可以被按照路径进行解析
    爬虫采集的大都是网络上的网页数据,就是常见的两种数据格式进行分析【html网页文档数据、xml数据文档】

    *.Lxml下载安装

    官方网站: https://lxml.de

    下载安装:pypi 下载地址 https://pypi.org/project.lxml/#files
    注意:下载离线包时切记注意安装依赖关系【依赖的python平台版本和操作系统平台】

    命令安装方式:
    打开windows的命令行 or Unix / liunx 的shell窗口
    通过包管理命令安装:pip install lxml

    1、Lxml

    通过Lxml有两种非常友好的数据筛选提取方式

    • xpath语法【重点】
    • css语法【熟练】

    编程操作步骤如下

    • 爬虫采集到网页数据
    • 将网页文本数据、转换结构化对象
    • 通过xpath语法 / css语法提取数据
    • 进行数据的分析整合

    2、Lxml—Xpath基本语法

    xpath基本语法.png

    相关文章

      网友评论

          本文标题:python爬虫——数据获取Xpath

          本文链接:https://www.haomeiwen.com/subject/djhyqqtx.html