美文网首页
数据提取方法

数据提取方法

作者: 康凯_7f06 | 来源:发表于2019-03-24 19:15 被阅读0次

1.json处理

    json.loads(json_str):将json字符串转换为Python对象

    json.dumps(str):将Python对象转换为json字符串

    json.load():将类json文件转换为Python对象

    json.dump():将Python对象转换为类json字符串

    注:json的字符串必须用双引号,如果不是的话可以用replace替换后再操作;一个json文件中只能有一个json

2.正则表达式

    re.compile(r):对正则表达式进行编译

    re.match(r, str):匹配第一个符合的内容

    re.search(r, str):找到一个

    re.findall(r,str):找到所有符合的内容,返回一个列表

    re.sub(要替换的内容,替换后的内容,str)

    注:1).无法匹配\n,添加re.DOTALL或re.S后可匹配

           2)原生字符串,使用r可以忽略转义符的影响,还可以用在Windows系统中的文件路径

3.Xpath

xpath中.表示当前节点,..表示当前节点的父节点

中文文档

    1.xpath在在爬虫获得的内容中使用和浏览器中的element可能会有区别

    2.关于文本的使用

        1)a/text():获取a中的文本

        2)a//text():获取a下所有的文本,包括a中标签下的文本

        3)//a[text()='文本']:获取符合文本内容的所有a

    3.@符号的使用

        1)a/@href:获取a的href属性

        2)//a[@id="title"]:获取id属性为title的所有a

        3)//a[contains(@class, 'i')]:class属性包含i的所有a

    4.//的使用

        1)//a:直接定位所有的a

        2)a//b:a下的b标签

    注:chrome浏览器中可以按装xpath helper使用xpath

4.Python中使用xpath,lxml库

    安装:pip install lxml

    使用:

        1)from lxml import etree

        2) 使用etree.HTML(str)将字符串转换为Element对象

        3)element对象可以调用xpath进行筛选数据

        注:1)etree.HTML可以接收str或byts作为参数

               2)lxml会修正HTML代码,但可能会修改错误,可以使用etree.tostring()观察修改后的html文档,然后根据修改后的html内容写xpath语句

               3)在提取数据时可以先进行分组,然后在对每个分组进行数据提取,以免数据错乱

相关文章

  • CAD数据提取方法

    CAD数据提取方法 1.工具栏选择“注释”模块——选择“表格”——点击“数据提取”,弹出“数据提取”操作框弹出“数...

  • 数据提取方法

    1.json处理 json.loads(json_str):将json字符串转换为Python对象 json.du...

  • 数据提取方法

    本文内容: 数据提取的基本概念和数据分类 json字符串的数据提取方法 正则表达式的使用 xpath语法基本使用 ...

  • 15-通用爬虫模块-数据提取

    数据提取 简单的来说,数据提取就是从响应中获取我们想要的数据的过程。 数据分类 非结构化的数据:html类处理方法...

  • Java Web 中对 ServletRequest 的一些非常

    提取 body 中的数据 老方法 java8新方法

  • 提取图片数据方法

    使用GetData,可以从图片中把数据描出来下载软件,操作非常简单,一看就通。有个好鼠标可能会在提取时助力不少。 ...

  • lsmeans R包 提取lsmeans的方法

    参考方法: 原文链接 目的 lsmeans生成的结果不是数据框,用str也没有办法提取,怎么提取结果? 方法 代码...

  • Scrapy-Shell的用法以及request和respons

    ① Shell方法查找网页数据 shell介绍可方便的提供我们做一些测试提取数据 如果想要提取网络数据网页可以在任...

  • 20190709Excel基础操作(2)

    一、快捷方式 1、CTRL + E 快速填充快捷键(有规律的数据中提取重要信息非常适用) 二、提取数据方法 1、...

  • R学习笔记 相关分析

    1、相关分析(两种提取数据集方法 提取出相关系数最大变量做回归分析

网友评论

      本文标题:数据提取方法

      本文链接:https://www.haomeiwen.com/subject/mrouvqtx.html