获取一部分htm 含子类
driver.get('https://index.baidu.com/#/')
html = etree.HTML(driver.page_source)
print etree.tostring(html.xpath('//div [@class="index-logo"]')[0])
/
etree.tostring(i, encoding='utf8').decode('utf8')
模糊查询:
mytree = tree.xpath('//div[contains(@id,"%s")]' % j)
tree.xpath('//div[contains(@id,"nav-main-") and not(contains(@id,"nav-main-past"))]')
soup = etree.HTML(data)
print(soup.xpath('//ul[@class="text-list"]/li/a[contains(text(),"如何")]/text()'))
# 获取所有子标签下的text
soup.xpath('//'//ul[@class="text-list"]/li/a[contains(text(),"如何")]')[0].xpath('string(.)')
c_info = node.xpath('./*//span [@class="c-info"]').xpath('string(.)').extract_first()
# 获取含有@属性的标签
soup.xpath('ul[@class]') # 获取含有class 属性的标签
xpath 语法
获取子类带html 标签内容(部分源码):
xpath(response.xpath('//div [@class="index-logo"]/node()').extract())
//title[@lang] 选取所有包含名为 lang 的属性的 title 元素。
//title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
网友评论