开篇
基本库requests,bs4
r = requests.get(url)#链接url,获取html
soup = BeautifulSoup(r.text, 'html.parser')
解析器
BeautifulSoup(r.text, 'html.parser')
html.parser就是解析器,主要的解析器有以下几种:
bs4的html解析器——html.parser
lxml的html解析器——lxml
lxml的xml解析器——xml
html5lib的解析器——html5lib
Tag标签组成
<a src=“china_map.jpg” size=“10”>…</a>
a——name,名称,tag.name
src=“china_map.jpg” size=“10”——Attribute,属性,tag.attrs
...——NavigableString,非属性字符串,tag.string
——Commebt,字符串的注释,获取方式同上
内容遍历
contents——子节点,遍历所有子节点存入列表
children——子节点,迭代类型
descendants——子孙节点,迭代类型
parent——父节点
parents——先辈节点,迭代类型
通过实例学习如何搭建python爬虫,目前利用BeautifulSoup、requests模块,实现基本爬取操作。
由于爬取的网页不使用utf-8编码,所以爬取后汉字显示为乱码,需要转码操作。
code = r.encoding #获取爬取网页的编码信息
r = r.text.encode(code).decode('utf-8') #转码操作
下一步需要通过正则获取所需信息,待续。。。
网友评论