<td align="left">工商管理<br>市场营销<br>财务管理<br>人力资源管理<br>电子商务</td>
今天爬页面的时候遇到这种结构的,要求把每一个分开,最开始直接用text()
发现取出来的在一起,不能分开。
于是采用了一种折中的方法:用正则
';'.join((''.join(tr.xpath('td[5]').re('<td align="left">(.*?)</td>'))).split('<br>'))
有更好的方法,欢迎大家评论讨论
<td align="left">工商管理<br>市场营销<br>财务管理<br>人力资源管理<br>电子商务</td>
今天爬页面的时候遇到这种结构的,要求把每一个分开,最开始直接用text()
发现取出来的在一起,不能分开。
于是采用了一种折中的方法:用正则
';'.join((''.join(tr.xpath('td[5]').re('<td align="left">(.*?)</td>'))).split('<br>'))
有更好的方法,欢迎大家评论讨论
本文标题:scrapy取不规则结构
本文链接:https://www.haomeiwen.com/subject/ajuaoxtx.html
网友评论