美文网首页python爬虫
二刷爬虫—BeautifulSoup

二刷爬虫—BeautifulSoup

作者: zhangyutong_dut | 来源:发表于2018-07-17 10:21 被阅读0次

Beautiful Soup是python官方的一个解析库,提供了许多方法,感觉用起来比较方便顺手

一般使用第三方库lxml来解析HTML文件

prettify()    以标准的缩进格式输出

经选择器选择之后,类型均为bs4.element.Tag类型

name属性获取节点名称

attrs属性获取节点属性,返回为字典类型

string属性获取节点包含的文本内容

contents属性获取直接子节点,返回列表形式

children属性获取直接子节点,返回生成器类型

descendants属性获取所有的子孙节点,返回生成器类型

parent属性获取直接父节点

parents属性获取所有的祖先节点,返回生成器类型

next_sibling 和 previous_sibling 属性获取下一个/上一个兄弟节点

next_siblings 和 previous_siblings 属性获取所有之后的/之前的兄弟节点

find_all()   

find()

select()   用CSS选择器进行选择

get_text()  获取文本

相关文章

网友评论

    本文标题:二刷爬虫—BeautifulSoup

    本文链接:https://www.haomeiwen.com/subject/xelwpftx.html