爬虫实践1

爬虫实践1

作者: 一手好厨艺的IT民工 | 来源:发表于2018-03-06 10:13 被阅读0次

爬虫实践1
爬虫实践 1 - 爬虫预备知识
R爬虫实践—抓取国自然基金信息【下篇】
爬虫入门—静态网页(链家北京二手房)
用Python爬取猫眼电影排行榜TOP100
Python·爬取当当网图书信息
Python Scraping ———09.24.2017
Python爬虫实践
Scrapy笔记
python-爬虫基础（慕课网）

1.urllib

1.urllib.urlopen打开一个http链接，返回一个文件描述符

import urllib

def gethtml(url):
    s = urllib.urlopen(url)
    return s.read()

if __name__ == '__main__':
    print gethtml("http://www.baidu.com")

urllib.urlopen打开后返回的文件描述符有以下几种读取方式：

s.read(100) #读多少个字节
s.read() #读出所有字节
s.readline() #多出来一行
s.readlines() #读出所有行，放入一个列表
s.getcode() #返回状态码
s.close（）把这个文件给关闭掉

不同的字符所占的字节是不同的, 不同编码中字符占用自己数不同（中文在utf-8中占用3个字节，gb2312占用2个字节）

2. HTTPMassage对象

import urllib

def gethtml(url):
    s = urllib.urlopen(url)
    return s.info()

if __name__ == '__main__':
    msg = gethtml("http://python.usyiyi.cn/documents/django_182/index.html")
    print msg

msg = s.info() //获取一个HTTPMassage的对象

msg.getheader(Content-Type) #getheader直接获取这个头

下载某个页面

import urllib

if __name__ == '__main__':
    filename, message = urllib.urlretrieve('http://python.usyiyi.cn/documents/django_182/index.html', 'index.html')
    print filename,'\n--------------\n', message

相关文章

爬虫实践1
1.urllib 1.urllib.urlopen打开一个http链接，返回一个文件描述符 urllib.urlo...
爬虫实践 1 - 爬虫预备知识
爬虫是能够自动抓取网络信息的一种程序，是从互联网获取对于我们有价值的信息的第一步。为了学会有效地获取网络信息，接下...
R爬虫实践—抓取国自然基金信息【下篇】
R爬虫实践—抓取国自然基金信息【上篇】和R爬虫实践—抓取国自然基金信息【中篇】都是对国自然数据的局部抓取，突然发现...
爬虫入门—静态网页(链家北京二手房)
1 引言最近写了一些简单的爬虫，感觉到爬虫这个东西实践大于理论，需要实际操作才能体会更深，写下这篇短文，希望给有...
用Python爬取猫眼电影排行榜TOP100
参考资料《Python3网络爬虫开发实践》，作者崔庆才这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有...
Python·爬取当当网图书信息
爬虫实践爬取当当网图书信息爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3）批量命名图片
Python Scraping ———09.24.2017
-非常好的介紹python 爬蟲入門 - 基于协程、异步IO的python爬虫 - python爬虫的最佳实践(六...
Python爬虫实践
Scrapy安装在Ubuntu系统下创建虚拟环境 virtualenv scrapy_env pip安装最新版本...
Scrapy笔记
- 状态：doing 1.框架介绍安利这个博客：爬虫框架Scrapy的讲解对数据的处理流程如下： 2.实践 r...
python-爬虫基础（慕课网）
二.爬虫简介以及爬虫的技术价值 2-1：爬虫是什么？ 2-2：爬虫技术的价值？三.简单爬虫架构 3-1：简单爬虫...

网友评论

本文标题：爬虫实践1

本文链接：https://www.haomeiwen.com/subject/pcdlfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫实践1|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！