网络爬虫初识

作者: 依旧丶森 | 来源:发表于2018-01-20 16:27 被阅读7次

    爬虫就是从网页中爬取数据的,这些数据可以是网页代码、图片、视频、音频等等,只要是浏览器网页中可以呈现的,都可以通过爬虫程序获取,针对性的大量数据的采集工作,我们会使用爬虫程序进行自动化操作。

    1.第一个简单基础的小爬虫

        # -*- coding:utf-8 -*-
        # 添加注释,让python源代码支持中文
    
        improt urllib2
        # 引入需要的模块
      
        # 访问目录网站,获取响应数据
        response = urllib2.urlopen(“https://www.taobao.com”)
              #这一步可以拆分为:2步
              #1.定义自己的请求对象
              my_request=urllib2.Request(url)
              #2.将请求对象发送
              response=urllib2.urlopen(my_request)
    
        # 打印展示获取到的数据
        print (response.read())  
        #read是读取response,只能读一次,
        #如果再次读取,会继续读取,造成读取不到数据。
    

    注意:
    python3默认情况下是unicode编码的,所以对于中文、数字、字母、特殊符号的支持是一致的!
    python2默认情况下是ascii编码的,所以对于中文的支持就不会太友好了!所以在默认情况下,源代码中不会识别中文,为支持中文,可以在源代码的头部[第一行/第二行]添加支持中文的标准注释[# -- coding:utf-8 -- ]。

    2.爬虫与反爬虫

    一般网站比较欢迎通用爬虫(类似搜索引擎的爬虫),通用爬虫可以引入新的客户流量,但不能更好的采集数据,网站也不欢迎爬虫去抓取大量信息数据,所以都有反爬机制,根据数据的珍贵程度,反爬机制强度也不一样。

      1. 需要设置请求头信息

    完整的请求头信息
    Host:           访问地址
    Connection: keep-alive   保持长连接
    Content-Length:     文本大小
    Accept:         接收数据格式
    Origin: http://fanyi.youdao.com
    X-Requested-With:    请求的格式xml
    User-Agent:   请求的浏览器信息,告诉网站自己不是爬虫
    Content-Type:     文本编码格式
    Referer:          反外链
    Accept-Encoding:   接收返回信息的格式,默认压缩
    Accept-Language:     接收的文本编码
    Cookie:      ......

    一般的请求,不用全部使用,只需要根据实际测试,添加必须的请求头信息。必要的有:User-Agent、Cookie、Referer 这三个。有些网站也会在请求头添加动态生成的额外请求头包含,需要注意破解添加。

        添加请求头的两种方式:注意中文的编码
        #1.直接把每一项的信息通过add_header逐一添加
        request.add_header("User-agent", user_agent)
        #2.把请求头信息包含在一个字典,直接赋值添加
        my_request=urllib2.Request(url,data=data,headers=header)
    
    • 2.请求方式里包含
      网页访问请求一般有 Get 和 Post 两种,Get 在url里包含数据,Post在表单添加请求数据。
          GET:
          #一般 Get 请求验证都包含在请求头。
          import urllib
          get_param = {
                "wd": keyword
          }
          # 重新编码,拼接到url里
          data = urllib.urlencode(get_param)
      
          POST请求:
          #urlib2的 GET 与 POST 请求差别在于是否包含data
          # post 请求有可能包含服务器反爬的信息要求,
          #  所以不仅要设置请求头,还要检查提交的表单是否有必要数据
          form_data={
              'i':n,
              'from':'AUTO',
          }
          request=urllib2.Request(url,data=data,headers=header)
      

    3. 查看urlib2底层操作,设置代理和获取cookie

    python内置模块提供了通用爬虫可以操作的Opener对象,但是如果一旦涉及到自定义的针对各种特定环境的操作,python内置的Opener对象就不能满足我们的需要了。需要自己定义对象操作。

    • 自定义opener

    观察底层代码操作,无非就是通过HTTPSHandler创建了一个HTTPS协议的处理器对象,然后通过build_opener()函数构建了一个opener实现和指定服务器url地址之间的数据访问操作。鉴于此,我们也可以自定义openr的实现过程:

        import urllib2
    
        #定义访问地址
        request=urllib2.Request('https://www.taobao.com')
    
        #创建一个自定义的Handler对象
        http_handler=urllib2.HTTPHandler()
    
        #构建一个opener对象
        http_opener=urllib2.build_opener(http_handler)
    
        #发送请求
        response=http_opener.open(request)
    
        #当我们需要使用代理服务器时,既可以使用代理服务器对象
        #构建一个可以操作的代理服务器Handler对象替代原来的handler对象
        handler=urllib2.ProxyHandler('{"http": "117.90.1.192:9000"}')
        有账号密码时({"http":"admin:123123@110.73.8.153:8123"})
    
    • 获取cookie信息

        1. 获取展示cookie
        import urllib2
        #cookie模块
        import cookielib
      
        #创建一个cookie核心对象
        cookie=cookielib.CookieJar()
      
        #创建一个自定义的Handler
        cookie_handler=urllib2.HTTPCookieProcessor(cookie)
      
        #创建一个可以操作的cookie的opener对象
        cookie_opener=urllib2.build_opener(cookie_handler)
      
        #发送请求
        response=cookie_opener.open("https://www.baidu.com")
      
        ######重点不在获取到什么数据,而在于cookie中出现了什么数据
        for item in cookie:
            print("%s-%s" % (item.name, item.value))
            # "{} - {}".format("hello", "world")
      
        1. 将获取的cookie保存到文件里
        #只改变了创建的cookie队象的函数
        #创建一个cookie核心对象,将cookie生成一个TXT文件。
        cookie=cookielib.MozillaCookieJar('baidu.txt')
      
        # 访问结束后~得到服务器响应——cookie数据就已经存在了,将数据保存到文件中
        cookie.save()
      
        1. 使用获的 cookie 信息
        #创建cookie核心
        cookie=cookielib.MozillaCookieJar()
      
        #从文件加载cookie数据
        cookie.load('baidu.txt')
      

    相关文章

      网友评论

        本文标题:网络爬虫初识

        本文链接:https://www.haomeiwen.com/subject/icdtaxtx.html