美文网首页
Python爬虫学习

Python爬虫学习

作者: 亻夋_09cd | 来源:发表于2019-06-11 21:13 被阅读0次

开篇

基本库requests,bs4

r = requests.get(url)#链接url,获取html

soup = BeautifulSoup(r.text, 'html.parser')

解析器

BeautifulSoup(r.text, 'html.parser')

html.parser就是解析器,主要的解析器有以下几种:

bs4的html解析器——html.parser

lxml的html解析器——lxml

lxml的xml解析器——xml

html5lib的解析器——html5lib

Tag标签组成     

<a src=“china_map.jpg” size=“10”>…</a>

a——name,名称,tag.name

src=“china_map.jpg” size=“10”——Attribute,属性,tag.attrs

...——NavigableString,非属性字符串,tag.string

——Commebt,字符串的注释,获取方式同上

内容遍历

contents——子节点,遍历所有子节点存入列表

children——子节点,迭代类型

descendants——子孙节点,迭代类型

parent——父节点

parents——先辈节点,迭代类型

通过实例学习如何搭建python爬虫,目前利用BeautifulSoup、requests模块,实现基本爬取操作。

由于爬取的网页不使用utf-8编码,所以爬取后汉字显示为乱码,需要转码操作。

code = r.encoding   #获取爬取网页的编码信息

r = r.text.encode(code).decode('utf-8')   #转码操作

下一步需要通过正则获取所需信息,待续。。。

相关文章

  • Python爬虫学习(十六)初窥Scrapy

    Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • Python爬虫学习之小结(一)

    到目前为止,Python爬虫学习已经写了八篇文章,分别是: Python爬虫学习(一)概述Python爬虫学习(二...

  • python爬虫学习-day7-实战

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • Python 基础爬虫目录

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day5-selenium

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day6-ip池

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day3-BeautifulSoup

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

网友评论

      本文标题:Python爬虫学习

      本文链接:https://www.haomeiwen.com/subject/rhicfctx.html