*准备工作
-
了解爬虫的数据处理体系结构
爬虫数据处理结构图.png - 处理数据的软件准备
采集到的结构化数【如html网页文档数据】 - python开发环境
- lxml第三方库
- 结构化数据基本理论:DOM模型
*.结构化数据
具备有一定的结构,由于定义的规则的数据模型,统称为结构化数据
如:数据进行格式化展示的html文档中的数据、数据进行格式化传输的xml文档中的数据、数据进行格式化整理的Excel表格中的数据等等都是结构
因为结构化数据具有预定义规则的数据模型,所以可以被按照路径进行解析
爬虫采集的大都是网络上的网页数据,就是常见的两种数据格式进行分析【html网页文档数据、xml数据文档】
*.Lxml下载安装
官方网站: https://lxml.de
下载安装:pypi 下载地址 https://pypi.org/project.lxml/#files
注意:下载离线包时切记注意安装依赖关系【依赖的python平台版本和操作系统平台】
命令安装方式:
打开windows的命令行 or Unix / liunx 的shell窗口
通过包管理命令安装:pip install lxml
1、Lxml
通过Lxml有两种非常友好的数据筛选提取方式
- xpath语法【重点】
- css语法【熟练】
编程操作步骤如下
- 爬虫采集到网页数据
- 将网页文本数据、转换结构化对象
- 通过xpath语法 / css语法提取数据
- 进行数据的分析整合
网友评论