美文网首页
Lxml 基础运用

Lxml 基础运用

作者: 下雨天的小蚂蚁 | 来源:发表于2020-02-18 12:41 被阅读0次

1 lxml的安装

安装方式:pip install lxml

2 lxml的使用

2.1 lxml模块的入门使用

导入lxml 的 etree 库 (导入没有提示不代表不能用)

from lxml import etree

利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据

html = etree.HTML(text)

ret_list = html.xpath("xpath字符串")

把转化后的element对象转化为字符串,返回bytes类型结果etree.tostring(element)

假设我们现有如下的html字符换,尝试对他进行操作

<div> <ul>

<li class="item-1"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签

</ul> </div>

from lxml import etree

text = ''' <div> <ul>

        <li class="item-1"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </ul> </div> '''

html = etree.HTML(text)

print(type(html))

handeled_html_str = etree.tostring(html).decode()

print(handeled_html_str)

输出为

<class 'lxml.etree._Element'>

<html><body><div> <ul>

        <li class="item-1"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </li></ul> </div> </body></html>

可以发现,lxml确实能够把确实的标签补充完成,但是请注意lxml是人写的,很多时候由于网页不够规范,或者是lxml的bug,即使参考url地址对应的响应去提取数据,任然获取不到,这个时候我们需要使用etree.tostring的方法,观察etree到底把html转化成了什么样子,即根据转化后的html字符串去进行数据的提取

2.2 lxml的深入练习

接下来我们继续操作,假设每个class为item-1的li标签是1条新闻数据,如何把这条新闻数据组成一个字典

from lxml import etree

text = ''' <div> <ul>

        <li class="item-1"><a href="link1.html">first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </ul> </div> '''

html = etree.HTML(text)

#获取href的列表和title的列表

href_list = html.xpath("//li[@class='item-1']/a/@href")

title_list = html.xpath("//li[@class='item-1']/a/text()")

#组装成字典

for href in href_list:

    item = {}

    item["href"] = href

    item["title"] = title_list[href_list.index(href)]

    print(item)

输出为

{'href': 'link1.html', 'title': 'first item'}

{'href': 'link2.html', 'title': 'second item'}

{'href': 'link4.html', 'title': 'fourth item'}

假设在某种情况下,某个新闻的href没有,那么会怎样呢?

from lxml import etree

text = ''' <div> <ul>

        <li class="item-1"><a>first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </ul> </div> '''

结果是

{'href': 'link2.html', 'title': 'first item'}

{'href': 'link4.html', 'title': 'second item'}

数据的对应全部错了,这不是我们想要的,接下来通过2.3小节的学习来解决这个问题

2.3 lxml模块的进阶使用

前面我们取到属性,或者是文本的时候,返回字符串 但是如果我们取到的是一个节点,返回什么呢?

返回的是element对象,可以继续使用xpath方法,对此我们可以在后面的数据提取过程中:先根据某个标签进行分组,分组之后再进行数据的提取

示例如下:

from lxml import etree

text = ''' <div> <ul>

        <li class="item-1"><a>first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </ul> </div> '''

html = etree.HTML(text)

li_list = html.xpath("//li[@class='item-1']")

print(li_list)

结果为:

[<Element li at 0x11106cb48>, <Element li at 0x11106cb88>, <Element li at 0x11106cbc8>]

可以发现结果是一个element对象,这个对象能够继续使用xpath方法

先根据li标签进行分组,之后再进行数据的提取

from lxml import etree

text = ''' <div> <ul>

        <li class="item-1"><a>first item</a></li>

        <li class="item-1"><a href="link2.html">second item</a></li>

        <li class="item-inactive"><a href="link3.html">third item</a></li>

        <li class="item-1"><a href="link4.html">fourth item</a></li>

        <li class="item-0"><a href="link5.html">fifth item</a>

        </ul> </div> '''

#根据li标签进行分组

html = etree.HTML(text)

li_list = html.xpath("//li[@class='item-1']")

#在每一组中继续进行数据的提取

for li in li_list:

    item = {}

    item["href"] = li.xpath("./a/@href")[0] if len(li.xpath("./a/@href"))>0 else None

    item["title"] = li.xpath("./a/text()")[0] if len(li.xpath("./a/text()"))>0 else None

    print(item)

相关文章

  • Lxml 基础运用

    1 lxml的安装 安装方式:pip install lxml 2 lxml的使用 2.1 lxml模块的入门使用...

  • python语法基础 requests库 lxml库,用lxml中的 etree 进行网页数据定位爬取 通过pip...

  • python lxml模块中xpath的学习

    代码为自学时所写,如有错误,请不吝指教xpath相关的基础语法学习lxml官方文档介绍 lxml的安装(我用的版本...

  • 12.lxml模块

    lxml模块 知识点 了解 lxml模块和xpath语法的关系 了解 lxml模块的使用场景 了解 lxml模块的...

  • python解析库安装

    解析库的安装 lxml 安装 lxml能够支持HTML和XML 的解析支持XPath解析,安装方式如下: lxml...

  • Python3 pip安装lxml

    1.更新pip 2.安装wheel 3.安装lxml 下载对应版本的lxml (lxml下载地址) 提示: P...

  • lxml库与Xpath语法

    lxml库使用Xpath语法解析定位网页数据。 lxml库的使用 (1)修正HTML代码 lxml为XML解析库,...

  • lxml 库的安装

    lxml下载地址: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

  • 《利用python进行数据分析》数据加载、存储与文件格式(部分笔

    利用lxml.objectify解析XML 代码如下: from lxml import objectify pa...

  • 2021-02-01

    学习matlab基础运用

网友评论

      本文标题:Lxml 基础运用

      本文链接:https://www.haomeiwen.com/subject/cmlgfhtx.html