Requests、BeautifulSoup的一些知识

作者: 眼君 | 来源:发表于2017-07-18 16:54 被阅读16次

BeautifulSoup

首先，beautifulsoup()解析的对象可以是一段字符串，或者文件句柄，例如：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("data")

而其返回一个beautifulsoup对象soup.

如果想取得一对标签之间的文本内容，可以使用get_text()方法,而要取得标签内的参数值则要用get('参数名')的方法，这一方法常用于取链接。如果我们想获得一个父级标签下所有子标签间的文本信息，我们需要用到的方法是stripped_strings,这个方法还能自动剔除多余的空白内容（空格和空行），并返回一个序列。一般使用list()将这个序列转化成列表。

soup.select()有许多种方法可以查找到想要的元素（http://beautifulsoup.readthedocs.io/zh_CN/latest/）

Requests

Requests 是一个基于 urllib库的包，requests.get()里可传入一个url，对服务器进行一次request,同时会返回一个response对象，其存储了服务器响应的内容。

r.status_code #响应状态码

r.raw #返回原始响应体，也就是 urllib 的 response 对象，使用 r.raw.read() 读取

r.content #字节方式的响应体，会自动为你解码 gzip 和 deflate 压缩

r.text #字符串方式的响应体，会自动根据响应头部的字符编码进行解码

r.headers #以字典对象存储服务器响应头，但是这个字典比较特殊，字典键不区分大小写，若键不存在则返回None

#*特殊方法*#

r.json() #Requests中内置的JSON解码器

r.raise_for_status() #失败请求(非200响应)抛出异常

r.encoding # r.text的编码，可以修改

用requests爬取需要登陆验证的页面：

headers={

'user-agent':'',

'cookie':,

}

另外，requests的headers里i可以添加一个proxies参数来添加代理：

proxy_list={'','','',}

proxy_ip=random.choice(proxy_list)

proxies = {'http':proxy_ip}

requests.post(url,headers=headers,proxies=proxies)

网友评论

本文标题：Requests、BeautifulSoup的一些知识

本文链接：https://www.haomeiwen.com/subject/lwrdvttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Requests、BeautifulSoup的一些知识

BeautifulSoup

Requests

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python大法攻略

互联网科技

大数据爬虫Python AI Sql

Requests、BeautifulSoup的一些知识

BeautifulSoup

Requests

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python大法攻略

互联网科技

大数据 爬虫Python AI Sql

大数据爬虫Python AI Sql