1、导航 搜索 改变 一个解析树,刨析一个文档以导出你需要的东西
2、自动转换字符编码
3、基于lxml html5lib构建
树的结点的类型:
Tag
name属性 通过.name来获得
其他属性 例如class 通过["class"]来获得
多值属性 例如class返回的是列表
NavigableString
通过tag的string属性来获得
还有很多的 CData , ProcessingInstruction , Declaration , Doctype, Comment是NavigableString的子类
find
通过tag的名称
soup.find_all("title")
通过keyword
soup.find_all(id='link2')
soup.find_all(id=True)
data_soup.find_all(attrs={"data-foo": "value"})
通过class查询
soup.find_all("a", class_="sister")
通过tag中的内容即string来查询
soup.find_all(string="Elsie")
网友评论