美文网首页
爬虫-urllib

爬虫-urllib

作者: 看三小 | 来源:发表于2018-12-21 16:55 被阅读0次

    1、导入urllib模块

    import urllib.request
    import urllib.parse

    2、获取url

    url = 'https://www.baidu.com/'

    3、获取请求头header

    header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4094.1 Safari/537.36',
    }

    4、加载页面时发送请求(三部曲)

    request = urllib.request.Request(url=url,headers=self.header)
    response = urllib.request.urlopen(request)
    content = response.read().decode()

    5、解析提取内容的正则

    1----导入正则 import re
    2----写提取正则内容
    pattern = re.compile(r'<dd>.?board-index.?>(\d+)</i>.?data-src="(.?)".?name"><a'
    + '.
    ?>(.?)</a>.?star">(.?)</p>.?releasetime">(.?)</p>'
    + '.
    ?integer">(.?)</i>.?fraction">(.?)</i>.?</dd>',re.S)

    相关文章

      网友评论

          本文标题:爬虫-urllib

          本文链接:https://www.haomeiwen.com/subject/ahkvkqtx.html