美文网首页
爬虫实践1

爬虫实践1

作者: 一手好厨艺的IT民工 | 来源:发表于2018-03-06 10:13 被阅读0次

    1.urllib

    1.urllib.urlopen打开一个http链接,返回一个文件描述符
    import urllib
    
    def gethtml(url):
        s = urllib.urlopen(url)
        return s.read()
    
    if __name__ == '__main__':
        print gethtml("http://www.baidu.com")
    

    urllib.urlopen打开后返回的文件描述符有以下几种读取方式:

    • s.read(100) #读多少个字节
    • s.read() #读出所有字节
    • s.readline() #多出来一行
    • s.readlines() #读出所有行,放入一个列表
    • s.getcode() #返回状态码
    • s.close()把这个文件给关闭掉

    不同的字符所占的字节是不同的, 不同编码中字符占用自己数不同(中文在utf-8中占用3个字节,gb2312占用2个字节)

    2. HTTPMassage对象
    import urllib
    
    def gethtml(url):
        s = urllib.urlopen(url)
        return s.info()
    
    if __name__ == '__main__':
        msg = gethtml("http://python.usyiyi.cn/documents/django_182/index.html")
        print msg
    

    msg = s.info() //获取一个HTTPMassage的对象

    • msg.getheader(Content-Type) #getheader直接获取这个头
    1. 下载某个页面
    import urllib
    
    if __name__ == '__main__':
        filename, message = urllib.urlretrieve('http://python.usyiyi.cn/documents/django_182/index.html', 'index.html')
        print filename,'\n--------------\n', message
    

    相关文章

      网友评论

          本文标题:爬虫实践1

          本文链接:https://www.haomeiwen.com/subject/pcdlfftx.html