美文网首页
爬虫实践1

爬虫实践1

作者: 一手好厨艺的IT民工 | 来源:发表于2018-03-06 10:13 被阅读0次

1.urllib

1.urllib.urlopen打开一个http链接,返回一个文件描述符
import urllib

def gethtml(url):
    s = urllib.urlopen(url)
    return s.read()

if __name__ == '__main__':
    print gethtml("http://www.baidu.com")

urllib.urlopen打开后返回的文件描述符有以下几种读取方式:

  • s.read(100) #读多少个字节
  • s.read() #读出所有字节
  • s.readline() #多出来一行
  • s.readlines() #读出所有行,放入一个列表
  • s.getcode() #返回状态码
  • s.close()把这个文件给关闭掉

不同的字符所占的字节是不同的, 不同编码中字符占用自己数不同(中文在utf-8中占用3个字节,gb2312占用2个字节)

2. HTTPMassage对象
import urllib

def gethtml(url):
    s = urllib.urlopen(url)
    return s.info()

if __name__ == '__main__':
    msg = gethtml("http://python.usyiyi.cn/documents/django_182/index.html")
    print msg

msg = s.info() //获取一个HTTPMassage的对象

  • msg.getheader(Content-Type) #getheader直接获取这个头
  1. 下载某个页面
import urllib

if __name__ == '__main__':
    filename, message = urllib.urlretrieve('http://python.usyiyi.cn/documents/django_182/index.html', 'index.html')
    print filename,'\n--------------\n', message

相关文章

  • 爬虫实践1

    1.urllib 1.urllib.urlopen打开一个http链接,返回一个文件描述符 urllib.urlo...

  • 爬虫实践 1 - 爬虫预备知识

    爬虫是能够自动抓取网络信息的一种程序,是从互联网获取对于我们有价值的信息的第一步。为了学会有效地获取网络信息,接下...

  • R爬虫实践—抓取国自然基金信息【下篇】

    R爬虫实践—抓取国自然基金信息【上篇】和R爬虫实践—抓取国自然基金信息【中篇】都是对国自然数据的局部抓取,突然发现...

  • 爬虫入门—静态网页(链家北京二手房)

    1 引言 最近写了一些简单的爬虫,感觉到爬虫这个东西实践大于理论,需要实际操作才能体会更深,写下这篇短文,希望给有...

  • 用Python爬取猫眼电影排行榜TOP100

    参考资料《Python3网络爬虫开发实践》,作者崔庆才 这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有...

  • Python·爬取当当网图书信息

    爬虫实践 爬取当当网图书信息 爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3) 批量命名图片

  • Python Scraping ———09.24.2017

    -非常好的介紹python 爬蟲入門 - 基于协程、异步IO的python爬虫 - python爬虫的最佳实践(六...

  • Python爬虫实践

    Scrapy安装 在Ubuntu系统下创建虚拟环境 virtualenv scrapy_env pip安装最新版本...

  • Scrapy笔记

    - 状态:doing 1.框架介绍 安利这个博客:爬虫框架Scrapy的讲解 对数据的处理流程如下: 2.实践 r...

  • python-爬虫基础(慕课网)

    二.爬虫简介以及爬虫的技术价值 2-1:爬虫是什么? 2-2:爬虫技术的价值? 三.简单爬虫架构 3-1:简单爬虫...

网友评论

      本文标题:爬虫实践1

      本文链接:https://www.haomeiwen.com/subject/pcdlfftx.html