美文网首页
Spider_days01

Spider_days01

作者: ZJXianG | 来源:发表于2018-05-28 22:11 被阅读0次

    主要内容

    爬虫概述:了解什么是爬虫
       
       爬虫就是将网络中非结构数据转化问结构数据化的工具
       通俗来讲:将网页数据存储到数据库的过程
       
    爬虫的分类
       
       分为通用爬虫和聚焦爬虫
       
       通用爬虫:一般用在搜索引擎中,针对所有数据进行广泛采集
       搜索引擎必须遵守爬虫采集数据的约定协议
       民间组织约定的爬虫采集数据协议:ROBOT协议
       
    聚焦爬虫:也称为定向爬虫,针对目标数据进行定向数据采集[深度]
       
    关于历史数据的处理
       
       分为增量爬虫和累积爬虫
       增量爬虫:需要实时对历史采集数据进行更新[历史数据会发生变化]
       累积爬虫:历史数据不会发生变化,一旦数据执行完成,数据就是固定的。
       
    简单开发流程
       
       第一行:生命编码格式,支持中文的# coding:utf-8
       
       第一步:
       创建目标地址:
       如: target_url = ‘www.baidu.com
       第二步:
       设置请求头:
       如:headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', }
    第三步:
       a.构造请求对象,我们经常在爬去数据过程中会对请求对象做一定的设置进行伪装
       如:resquest=urllib2.Resquest(target_url,headers=headers)
       
       b.构造操作对象(支持代理操作)
       如:proxy_handler=urllib2.ProxyHandler({'http':'ip:post'})
       
       c.得到opener对象
       如:proxy_opener=urllib2.build_opener(proxy_handler)

    第四步:
       发送请求,得到服务器数据
       response = proxy_opener.open(request)
       
    第五步:
       把文件写入本地
       with open ('文件名',’wb‘) as f:
        f.write (response.read())

    相关文章

      网友评论

          本文标题:Spider_days01

          本文链接:https://www.haomeiwen.com/subject/hspnjftx.html