爬虫基础系列urllib（2）

作者: 猛犸象和剑齿虎 | 来源:发表于2019-05-03 18:43 被阅读8次

u=2998242485,1841996514&fm=27&gp=0.jpg

html页面的解码

从页面中直接获取的数据是二进制形式的数据，我们平时接触到的大多是字符串形式的数据，那么就涉及到将二进制形式的数据转换成字符串形式的数据，在用Python中一些方便的地方在于“想开汽车不需要自己造轮子”，就是使用它能达到效果和目的就行。

reponse=request.urlopen(url).read().decode() #解码---（编码encode()）

只需要将读取的信息decode一下就能转换成字符串形式的数据，然后用正则表达式获取。

简单的正则表达式采集数据

首先引人正则表达式的包，正则表达式是内置模块 import re
想采集数据首先要分析页面，获取到的二进制页面，分析想要的信息在<title>键值对中。

pat=r"<title>(.*?)</title>"

完整代码

#import urllib.request
from urllib import request
import re

url=r"http://www.baidu.com/"

#发送请求.获取响应信息
reponse=request.urlopen(url).read().decode() #解码---（编码encode()）
print(reponse)

pat=r"<title>(.*?)</title>"

data=re.findall(pat,reponse)


print(data)

返回的信息为：

['百度一下，你就知道']

爬虫基础系列urllib（1）
爬虫基础系列urllib（3）

网友评论

本文标题：爬虫基础系列urllib（2）

本文链接：https://www.haomeiwen.com/subject/iweznqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫基础系列urllib（2）

html页面的解码

简单的正则表达式采集数据

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

有些文章不一定是为了上首页投稿

每周500字

简书面面观

python爬虫