XPath 与 lxml
XPath 是一种在结构化文档中定位信息的方法,如在HTML和XML文档中 。可用来在 XML 文档中对元素和属性进行遍历,可参考W3Schools介绍。
lxml 是一个结合了libxml2 快速强大特性和 Python 语言易用性的一个第三方库,解析网页性能较高。
XPath 语法和 lxml 用法可直接参考官方文档。
推荐参考博客:静觅崔庆才的个人博客
lxml.etree 中几种用于解析文本的方法:
方法 | 描述 |
---|---|
HTML() | 用于解析 HTML 对象 |
fromstring() | 用于解析字符串 |
parse() | 用于解析文件类型的对象 |
XML() | 用于解析 XML 对象 |
具体用法和实例可参考 静觅崔庆才的个人博客
使用requests 和 lxml 解析简书首页的标题
代码:
import requests
from lxml import etree
jianshu_url = "http://www.jianshu.com/"
home_page_html = requests.get(jianshu_url).content
html = etree.HTML(home_page_html)
titles = html.xpath('//a[@class="title"]/text()')
for i in range(len(titles)):
print("第 %d 文章篇标题: " % (i+1),titles[i])

网友评论