美文网首页
2018-04-10粗鲁地爬取网页

2018-04-10粗鲁地爬取网页

作者: cmd_dc6c | 来源:发表于2018-04-10 21:32 被阅读0次
import urllib2
response = urllib2.urlopen("http://taobao.com")
print response.read()

综上:三行代码就能简单地将淘宝网页爬取出来,这是根据url路由爬取的,比较粗暴
分析:
1.此代码需在python2环境下编写
2.urllib2是python2内置的一个系统工具库

urllib2功能 (5大功能)

1.获取web页面
2.在远程服务器上验证
3.额外数据提交,像一些:表单提交(GET和POST)
4.异常处理
5.非http协议通信(像ftp协议通信等等)

urllib2中urlopen方法的分析:

urlopen() 对象主要用于打开 括号里指定的网站 所对应的内容
urlopen中有三个参数:
1.url :指路径,必须填充的内容* 列如:http://www.taobao.com
2.data:指访问url时要传送的数据,默认为空
3.timeout:设置超时时间,一般为默认

对于response的处理

1.直接打印response

print response
#结果如下
#<addinfourl at 84866632L whose fp = <socket._fileobject object at 0x00000000050831B0>>

若直接打印,结果是url路由,是路径内容
所以需要借助 response 里的 read()方法 ,利用该方法,返回的是网页内容,所以是

print response.read()

*稍微小心地爬取数据 (request的分析)

request请求

import urllib2
request = urllib2.Request("http://www.taobao.com")
response = urllib2.urlopen(request)
print response.read()

综上:该代码是第一个代码的扩充,由只有响应(response),增加进去一个请求(request)
在代码的第二行,是一个请求对象,提出请求,响应请求,
**request对象是利用内存来存放我们客户对服务器端提出的请求的一段信息的相关内容

注:由于我们爬取数据时,不一定非要爬取整个网页,可以视情况爬取某一部分或者某些内容,此时可以通过提交请求得到。

相关文章

  • 2018-04-10粗鲁地爬取网页

    综上:三行代码就能简单地将淘宝网页爬取出来,这是根据url路由爬取的,比较粗暴分析:1.此代码需在python2环...

  • Python实战学习笔记 爬去真实网页信息

    爬取URL结果 爬取代码 爬取心得通过这次爬去学会从网页找不同页面地址之间的规律爬去网页,单次爬取的网页可以作为循...

  • (二)爬取豆瓣网的书名(BeautifulSoup库)|Pyth

    1.爬取网页的步骤2.爬取网页的代码1结果显示3.爬取网页的代码2结果显示4.代码分析最近更新:2018-01-1...

  • 前程无忧职位信息爬取

    分析网页 通过浏览器查看网页源代码,可以找到相应的职位信息,可知目标网页为静态网页,因此可以直接爬取。 爬取思路 ...

  • 网络爬虫与信息提取(二)

    爬取网页的通用代码框架 Requests库的异常 爬取网页的通用代码框架 协议 HTTP http://host[...

  • 爬虫

    URL管理器:管理待爬取的url集合和已爬取的url集合,传送待爬取的url给网页下载器。网页下载器(urllib...

  • 集搜客爬取数据方法

    1.安装集搜客软件 2.确定目标网页地址,确定爬取内容类型:只涉及本网页内容列表还是需要层级爬取?层级爬取就是需要...

  • 爬虫作业2

    分析要爬取目标的网页的网页结构与元素标签位置信息 任务回顾 1.爬取网页:看准网 http://www.kanzh...

  • 学习笔记 2018-10-22

    第一单元小结 通用代码框架try - except 网络爬虫引发的问题爬取网页,玩转网页 requests爬取网站...

  • requests爬虫改为增量爬虫的一种方法

    在爬虫编写中,为了避免重复爬取同一个网页,一般会使用增量爬虫,这样就避免了重复爬取相同的一个网页,只爬取新的网页数...

网友评论

      本文标题:2018-04-10粗鲁地爬取网页

      本文链接:https://www.haomeiwen.com/subject/nztohftx.html