美文网首页
Python爬虫学习

Python爬虫学习

作者: 亻夋_09cd | 来源:发表于2019-06-11 21:13 被阅读0次

    开篇

    基本库requests,bs4

    r = requests.get(url)#链接url,获取html

    soup = BeautifulSoup(r.text, 'html.parser')

    解析器

    BeautifulSoup(r.text, 'html.parser')

    html.parser就是解析器,主要的解析器有以下几种:

    bs4的html解析器——html.parser

    lxml的html解析器——lxml

    lxml的xml解析器——xml

    html5lib的解析器——html5lib

    Tag标签组成     

    <a src=“china_map.jpg” size=“10”>…</a>

    a——name,名称,tag.name

    src=“china_map.jpg” size=“10”——Attribute,属性,tag.attrs

    ...——NavigableString,非属性字符串,tag.string

    ——Commebt,字符串的注释,获取方式同上

    内容遍历

    contents——子节点,遍历所有子节点存入列表

    children——子节点,迭代类型

    descendants——子孙节点,迭代类型

    parent——父节点

    parents——先辈节点,迭代类型

    通过实例学习如何搭建python爬虫,目前利用BeautifulSoup、requests模块,实现基本爬取操作。

    由于爬取的网页不使用utf-8编码,所以爬取后汉字显示为乱码,需要转码操作。

    code = r.encoding   #获取爬取网页的编码信息

    r = r.text.encode(code).decode('utf-8')   #转码操作

    下一步需要通过正则获取所需信息,待续。。。

    相关文章

      网友评论

          本文标题:Python爬虫学习

          本文链接:https://www.haomeiwen.com/subject/rhicfctx.html