美文网首页
网站信息抓取实践

网站信息抓取实践

作者: loloxiaoz | 来源:发表于2017-07-27 16:34 被阅读0次

    导语:

    成绩抓取主要涉及到三块技术:web、数字图像处理与机器学习

    目标


    从目标官网上,根据数据库中已有的身份证和姓名,抓取其所有成绩,并存入数据库中。

    步骤


    • 1 获取验证码
    • 2 识别验证码
    • 3 查询成绩
    • 4 成绩入库

    获取验证码

    原始验证码如下,是一个数学表达式。图中的数字是经过旋转和扭曲处理的,还随机分布着点和线。破解难度中等。


    识别验证码

    • 1 图像二值化
      干扰点和干扰线的灰度值,比字符的灰度值小,因此可以利用这个特征,通过图像二值化,去除干扰点和干扰线。使用opencv库,首先计算图像的灰度直方图,并归一化,根据灰度直方图的分布找到二值化的阈值后,再二值化。
      void procBinary(Mat image,Mat& threshold_image,int index)
      {
          float range[] = {float(min_grey),float(max_grey)} ;
          const float* hist_range = {range};
          bool uniform = true;
          bool accumulate = false;
          Mat hist;
          //计算灰度直方图
          calcHist(&image,1,0,Mat(),hist,1,&max_grey,&hist_range,uniform,accumulate);
          //归一化
          normalize(hist,hist,0,image.rows,NORM_MINMAX,-1,Mat());
          int threhold = 0;
          for(int j = 0; j < hist.size().height; j++){
              if(abs(hist.at<float>(0,j)-image.rows)<precision){
                  threhold = j;
              }
          }
          //根据阈值二值化
          threshold(image,threshold_image,threhold+1,max_grey,THRESH_BINARY);
      }
    

    预处理后的效果如下:


    • 2 字符分割

    破解验证码的重点和难点就在于能否成功分割字符,这一点也是机器视觉里的一道难题,对物件的识别能力。对于颜色相同又完全粘连的字符,比如google的验证码,目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率

    官网上的验证码,字符有一定几率会粘连,因此会一定程度上影响验证码识别的准确率。
    使用扫描线法,从最左侧开始从左到右扫描,如果没有遇到任何文字的像素,就则往右一个像素然后再扫描,如果遇到有文字像素存在,就记录当前横坐标,继续向右扫,突然没有文字像素的时候,就说明到了两个字符直接的空白部分。再根据记录的位置分割字符。

    • 3 标准化
      主要是对字符进行缩放,使之成为32x32的图片。
      这里并没有使用算法对旋转扭曲的字符进行处理,原因有两点1、训练数据中的字符也是旋转的,不处理对识别率的影响不大,2、如果每次都对旋转、扭曲的算法进行处理,计算量也大。


    • 4 使用卷积神经网络(CNN)
    生成训练数据

    如果手动对几千张图片分类,需要大量的人工操作了,至少得好几个小时。观察接口发现,官网上是使用securimage开源库生成的验证码,使用的是SI_CAPTCHA_MATHEMATIC模式。


    既然能够拿到验证码生成程序,那么训练数据就很容易得到。在生成验证码时,不生成随机干扰点与线,将验证码对应的值作为图像名的一部分保存。
    //验证码数据生成
    do {
           $signs = array('+', '-', 'x');
           $left  = mt_rand(1, 10);
           $right = mt_rand(1, 10);
           $sign  = $signs[mt_rand(0, 2)];
           $equal = '=';
           $out   = '?';
    
           switch($sign) {
                 case 'x': $c = $left * $right; break;
                 case '-': $c = $left - $right; break;
                 default:  $c = $left + $right; break;
            }
    } while ($c <= 0); // no negative #'s or 0
    $this->code         = "$c";
    $this->code_display = "$left $sign $right $equal $out"
    //将验证码对应的值作为图像名的一部分保存
    $filename = "data/".uniqid()."_".$this->code_display.".png";
    imagepng($this->im,$filename);
    imagedestroy($this->im);
    

    将securimage生成验证码,并自动归类到相应的文件夹中


    训练

    卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
    CNN可以用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习。

    代码实现参照nladuo,使用LeNet5卷积神经网络,以32x32的图片作为输入,对于字符的变形、旋转、干扰线等扭曲都可以很好的识别,可以实现以下效果。


    卷积神经网络会自己不断的对训练集进行学习迭代,每次迭代都会对识别率有所改进。
    具体步骤如下:
    • 1 将测试数据放到training_set目录下
    • 2 设置字符集
    std::string label_strs[13] = {
        "-", "x", "+", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9"
    };
    
    • 3 将4/5的数据作为训练集,将1/5的数据作为测试集
    • 4 开始训练
      //进度轴
      progress_display disp(train_images.size());
      timer t;
      //最小批处理尺寸
      int minibatch_size = 100;
      //迭代次数
      int num_epochs = 50;
      //一轮训练后的回调函数
      auto on_enumerate_epoch = [&](){
      std::cout << t.elapsed() << "s elapsed." << std::endl;
      tiny_cnn::result res = nn.test(test_images, test_labels);
      std::cout << res.num_success << "/" << res.num_total << std::endl;
      disp.restart(train_images.size());
      t.restart();
      };
      auto on_enumerate_minibatch = [&](){
      disp += minibatch_size;
      };
      // 开始训练
      nn.train<mse>(optimizer, train_images, train_labels, minibatch_size, num_epochs, on_enumerate_minibatch, on_enumerate_epoch);
    

    将神经网络的权重输出到"weights"中。
    训练结束后,根据输出可以看到单个字符有1806/1870=97%的识别率,假设验证码有4个字符,那么有0.97^4=0.88左右的识别率。考虑到验证码分割大概有20%概率不会成功,整体验证码识别率应该在0.88*0.8= 70%左右。


    之前验证码的识别结果如下

    查询成绩

    官网将cookie中的PHPSESSID值作为用户的身份标识,因此在获取验证码和查询成绩时设置同样的PHPSESSID即可。

    $content    = $this->curlHelper->request($this->config["captchaUrl"]);
    file_put_contents("bin/captcha$index.png",$content);
    exec("cd bin;./recognizer captcha$index.png",$ret);
    

    需要注意的是,如果网站有反爬虫机制,对访问频次和ip有限制,则需要使用ip池,通过代理访问。最大重试次数的设置,由于150000pow((1-0.7),10)=0.885*,因此将最大重试次数设置为10时,循环15万个身份证,基本都能识别出来

    成绩入库

    数据库中有15万个有身份证,最终从官网上能查到成绩的有41836选手,188077条记录

    相关文章

      网友评论

          本文标题:网站信息抓取实践

          本文链接:https://www.haomeiwen.com/subject/ijfnkxtx.html