美文网首页
python爬虫第一步:获取页面内容

python爬虫第一步:获取页面内容

作者: ggr | 来源:发表于2018-06-03 23:36 被阅读0次
    • 爬虫最基础的一步就是获取某个链接的html内容,然后再做其他分析处理
      下面演示如何获取某个url的内容:效果其实和我们在浏览器右键查看源的效果一致,我们可以吧内容保存到某个文件中,代码如下:
    import urllib.request
    import codecs
    # 使用codecs实现文件自动编码
    url = "http://www.douban.com"
    webPage = urllib.request.urlopen(url)
    data = webPage.read()
    data = data.decode('utf-8')
    print(data)
    f = codecs.open('C:/Users/GuiRunning/Desktop/test/test.html','w','utf-8')
    f.write(data)
    f.close()
    

    最后得到的文件如下图:

    image.png

    相关文章

      网友评论

          本文标题:python爬虫第一步:获取页面内容

          本文链接:https://www.haomeiwen.com/subject/wzissftx.html