美文网首页Python三期爬虫作业
【Python爬虫】- 初识 XPath 与 lxml

【Python爬虫】- 初识 XPath 与 lxml

作者: 927556dd6e46 | 来源:发表于2017-08-02 21:01 被阅读310次

XPath 与 lxml

XPath 是一种在结构化文档中定位信息的方法,如在HTML和XML文档中 。可用来在 XML 文档中对元素和属性进行遍历,可参考W3Schools介绍。

lxml 是一个结合了libxml2 快速强大特性和 Python 语言易用性的一个第三方库,解析网页性能较高。
XPath 语法和 lxml 用法可直接参考官方文档。
推荐参考博客:静觅崔庆才的个人博客

lxml.etree 中几种用于解析文本的方法:

方法 描述
HTML() 用于解析 HTML 对象
fromstring() 用于解析字符串
parse() 用于解析文件类型的对象
XML() 用于解析 XML 对象

具体用法和实例可参考 静觅崔庆才的个人博客

使用requests 和 lxml 解析简书首页的标题

代码:

import requests
from lxml import etree

jianshu_url = "http://www.jianshu.com/"
home_page_html = requests.get(jianshu_url).content
html = etree.HTML(home_page_html)
titles = html.xpath('//a[@class="title"]/text()')

for i in range(len(titles)):
    print("第 %d 文章篇标题: " % (i+1),titles[i])

运行结果

相关文章

网友评论

    本文标题:【Python爬虫】- 初识 XPath 与 lxml

    本文链接:https://www.haomeiwen.com/subject/ovvylxtx.html