美文网首页爬虫Android技术知识Web前端之路
Python网络爬虫(二)- urllib爬虫案例

Python网络爬虫(二)- urllib爬虫案例

作者: 一只写程序的猿 | 来源:发表于2017-08-08 21:28 被阅读2064次

    目录:

    urllib的爬虫案例-通过最原始的爬虫方式

    爬虫之前如果抓包工具Fiddler证书安装失败,采用以下方法

    1、打开cmd
    2、进入fillder的目录
    如下:
    里面的路径改成你自己的安装路径

    cd /d "D:\Program Files (x86)\Fiddler2"
    

    然后再执行下面命令

    makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b 09/05/2012
    

    下面提共一个批处理,打开你的fiddler2的目录把下面代码保存成一个creat.bat文件直接双击运行

    cd %cd%
    makecert.exe -r -ss my -n "CN=DO_NOT_TRUST_FiddlerRoot, >O=DO_NOT_TRUST, OU=Created by http://www.fiddler2.com" -sky >signature -eku 1.3.6.1.5.5.7.3.1 -h 1 -cy authority -a sha1 -m 120 -b >09/05/2012
    pause
    
    • 另外GET和POST数据传送的却别在于GET方式是直接以链接形式访问,链接中包含了所有的参数,同时也包含了自己密码,包含了密码的话是一种不安全的选择,不过优点在于可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数。

    代码操作(一)爬取百度贴吧数据(GET方式爬取数据
    ,这里爬取的是战狼2贴吧的html)

    # -*- coding:utf-8 -*-
    
    #引入需要的模块
    import urllib #用于进行中文编码
    import urllib2  #用于进行爬虫核心处理
    
    #定义一个函数,用于爬取对应的数据
    def load_url(url,file_name):
        '''
        作用:针对指定的url地址,进行数据的获取
        :param url: 要爬取数据的具体url地址
        :param file_name: 要保存的文件名称;在当前函数中,只做提示使用
        :return: 爬取的数据
        '''
        print('开始爬取%s的内容'%file_name)
        #爬取程序
        my_headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
        }
        request = urllib2.Request(url,headers=my_headers)
        content = urllib2.urlopen(request).read()
        print('爬取%s的内容完成!'%file_name)
        return content
    
    #定义一个函数,用于保存数据
    def save_data(data,file_name):
        '''
        作用:主要用于进行数据存储
        :param data: 要存储的数据
        :param file_name: 要存储的文件名称
        :return: 无
        '''
        print('开始保存%s的内容'%file_name)
    
        with open(file_name,'w') as f:
            f.write(data)
        print('保存%s的内容完成!'%file_name)
    
    
    #定义函数,进行爬虫的核心处理功能
    def spider(url,kw,begin,end):
        '''
        用于进行核心爬虫功能的调度
        :param url: 要爬取的地址
        :param kw: 贴吧名称
        :param begin: 起始页码
        :param end: 结束页码
        :return: 无
        '''
        for page in range(begin,end+1):
            #计算需要的页码
            pn = (page-1)*50
            #进行kw参数的编码
            kw = urllib.urlencode({'kw':kw})
            #拼接url地址
            full_url = url + kw +'&pn=' +str(pn)
            #定义一个保存文件的名称
            file_name = '网页'+str(page) +'.html'
            #开始爬取数据
            html=load_url(full_url,file_name)
            #保存数据到文件
            save_data(html,file_name)
    
    #主程序运行入口
    if __name__ == '__main__':
        #用户输入相关数据
        url='http://tieba.baidu.com/f?'
        kw = raw_input('请输入要爬取的贴吧名称:')
        begin = int(raw_input('请输入开始页码:'))
        end = int(raw_input('请输入结束页码:'))
    
        #调用爬虫开始执行
        spider(url,kw,begin,end)
    
    得到两个文件,分别是战狼2贴吧首页和第二页的html代码

    代码操作(二)爬取百度清纯妹子图(GET方式爬取Ajax数据)

    # -*- coding:utf-8 -*-
    import urllib
    import urllib2
    
    url = 'http://image.baidu.com/search//acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=%E9%9D%92%E6%98%A5%E5%A6%B9%E5%AD%90%E5%9B%BE&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&pn=30&rn=30&gsm=1e&1502192101260='
    #请求头描述信息
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
    }
    
    #包装请求对象
    request = urllib2.Request(url,headers=header)
    
    #根据请求对象发送数据请求,获取服务器返回的响应对象
    response = urllib2.urlopen(request)
    
    #获取响应对象中的数据
    content = response.read()
    
    #将获取的数据保存在文件中
    with open('qing.json','w') as f:
        f.write(content)
    
    爬取的图片链接

    代码操作(三)爬取豆瓣电影数据(POST方式爬取Ajax数据)

    # -*- coding:utf-8
    
    import urllib
    import urllib2
    
    url = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10'
    
    #要传递的post方式嗯对数据,有可能会有多组数据
    submit_data = {
        'start':20,
        'tags':'喜剧'
    }
    #编码
    data = urllib.urlencode(submit_data)
    
    #构造请求头,创建请求对象
    headers = {
        "Accept" : "application/json, text/plain, */*",
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.7 Safari/537.36",
        "Accept-Language" : "zh-CN,zh;q=0.8"
    }
    
    request = urllib2.Request(url,data,headers)
    
    #发送请求,获取服务器响应数据
    response = urllib2.urlopen(request)
    
    #获取爬取到的数据
    content = response.read()
    
    #保存数据
    with open('movies.json','w') as f:
        f.write(content)
    

    代码操作(四)爬取qq空间数据(验证登录,在创建请求对象时,需加入cookie)

    # -*- coding:utf-8 -*-
    
    #引入需要的模块
    import urllib
    import urllib2
    
    url = 'https://user.qzone.qq.com/695282462/infocenter'
    
    my_header = {
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
     Chrome/60.0.3112.7 Safari/537.36",
        "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,
    image/apng,*/*;q=0.8",
        "Accept-Language" : "zh-CN,zh;q=0.8",
        'Cookie':'ptisp=ctc; RK=WY0mdGAKSq; ptcz=ed3988f5c1d469e118b8b58fd5afcda9770e51b2ed
    2891a36c3445bd76a9efe7; pt2gguin=o0(QQ号码); uin=o0(QQ号码); skey=@ctrB6l4vj'
    }
    
    request = urllib2.Request(url,headers=my_header)
    
    response = urllib2.urlopen(request)
    
    html = response.read()
    
    with open('qzone.html','w') as f:
        f.write(html)
    
    爬取到个人空间当前显示内容的html代码
    如果你觉得我的文章还可以,可以关注我的微信公众号:Python攻城狮
    可扫描二维码,添加关注

    相关文章

      网友评论

        本文标题:Python网络爬虫(二)- urllib爬虫案例

        本文链接:https://www.haomeiwen.com/subject/eksxrxtx.html