美文网首页
Python实战爬虫:练手爬虫用urllib模块获取

Python实战爬虫:练手爬虫用urllib模块获取

作者: 25岁学Python | 来源:发表于2019-12-24 22:15 被阅读0次

    练手爬虫用urllib模块获取

    import re
    import urllib
    
    def getHtml(url):
        page = urllib.urlopen(url)
        html = page.read()
        return html
    
    def getImg(html):
        reg = r'src="(.+?\.jpg)" pic_ext'
        imgre = re.compile(reg)
        imglist = re.findall(imgre,html)
        return imglist 
    
    html = getHtml("https://zwk365.com") //攒外快网
    print getImg(html)
    
    
    推荐Python大牛在线分享技术 扣qun:855408893
    
    领域:web开发,爬虫,数据分析,数据挖掘,人工智能
    
    零基础到项目实战,7天学习上手做项目
    
    

    修改后python3的代码

    import re
    import urllib.request
    
    def getHtml(url):
        page = urllib.request.urlopen(url) #获取网站
        html = page.read() #内容读取,返回的html是字节的格式
        return html
    
    def getImg(html):
        # print(str(html,encoding='utf8'))   #内容以爬下来为准而不是网站上的
        reg = 'data-original="(.*?)"'  #设置下内容的re格式
        imglist = re.findall(reg,str(html,encoding='utf8'),re.S)
        return imglist
    
    html = getHtml("https://zwk365.com")
    print(getImg(html))
    

    相关文章

      网友评论

          本文标题:Python实战爬虫:练手爬虫用urllib模块获取

          本文链接:https://www.haomeiwen.com/subject/ukhinctx.html