在爬虫抓取的时候遇到下面这几种,需要抓取的数据都在tr更深层的标签里,如果一个一个取比较麻烦
- tr>td>span
- tr>td>div>span
- tr>th>span
针对这种情况就要用到string方法,抓取所有tr下的标签再一个个遍历出来
代码如下:
content1 = html22.xpath(r'//*[@id="_container_baseInfo"]/table[1]/thead/tr')[0]
for i in content1:
info1 = i.xpath('string(.)')
print(info1)
网友评论