爬虫基础系列urllib(2)

作者: 猛犸象和剑齿虎 | 来源:发表于2019-05-03 18:43 被阅读8次
    u=2998242485,1841996514&fm=27&gp=0.jpg

    html页面的解码

    • 从页面中直接获取的数据是二进制形式的数据,我们平时接触到的大多是字符串形式的数据,那么就涉及到将二进制形式的数据转换成字符串形式的数据,在用Python中一些方便的地方在于“想开汽车不需要自己造轮子”,就是使用它能达到效果和目的就行。
    reponse=request.urlopen(url).read().decode() #解码---(编码encode())
    

    只需要将读取的信息decode一下就能转换成字符串形式的数据,然后用正则表达式获取。

    简单的正则表达式采集数据

    • 首先引人正则表达式的包,正则表达式是内置模块 import re
    • 想采集数据首先要分析页面,获取到的二进制页面,分析想要的信息在<title>键值对中。
    pat=r"<title>(.*?)</title>"
    
    • 完整代码
    #import urllib.request
    from urllib import request
    import re
    
    url=r"http://www.baidu.com/"
    
    #发送请求.获取响应信息
    reponse=request.urlopen(url).read().decode() #解码---(编码encode())
    print(reponse)
    
    pat=r"<title>(.*?)</title>"
    
    data=re.findall(pat,reponse)
    
    
    print(data)
    

    返回的信息为:

    ['百度一下,你就知道']
    

    爬虫基础系列urllib(1)
    爬虫基础系列urllib(3)

    相关文章

      网友评论

        本文标题:爬虫基础系列urllib(2)

        本文链接:https://www.haomeiwen.com/subject/iweznqtx.html