node爬虫-模拟登录(一)

作者: bradys | 来源:发表于2016-11-29 22:16 被阅读424次

node爬虫-模拟登录(一)
模拟登录之果壳网
爬虫模拟登录
node入门场景之——爬虫
特斯拉API接口 - 授权登录
各类链接
Python爬虫集合，20个爬虫项目让你一次吃到撑！！！
python爬虫系列-使用selenium模拟豆瓣登录
模拟登陆存在问题
今日测试

执行环境

windows 7 64位

node 5.8.0

最近在写有关模拟登录的模块，查了一些资料，很多都没有验证码这部分的处理，总结一下，我认为在写之前要理解爬虫的工作原理，理解了数据如何在浏览器与服务器之间进行交互，实现起来就简单了。

爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。当我们将学号、密码及验证码提交后，浏览器首先通过与服务器进行连接，确认我们填的信息正确后，服务器会生成一个sessionId来表示登陆成功的状态，并返回给浏览器，浏览器接受到SessionId之后，作为cookies值保存在浏览器，之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此，获取cookies值是我们做爬虫很关键一步，这样才可以对登录后的页面数据进行爬虫，找到自己需要的数据。

一、准备工作：

1.安装superagent（一个的请求代理模块api，可处理get,post,put,delete,head请求）

npm install superagent

2.安装cheerio（装载已爬取的html网页，类似jQuery，方便获取网页指定数据。）

npm install cheerio

3.安装nodecr（解析验证码）

npm install nodecr

二：分析网页cookies

首先在浏览器中输入正确的用户和密码进行登录，登录成功后服务器会发送生成的cookie值给浏览器，用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录，还要保存好其发送给我们的cookie值，在之后的请求中将cookie值设置在请求头中进行发送，以获取登录后的其它页面信息。可在控制台中进行查看分析。

三、分析post需要提交的字段

方法一：在同样的控制台页面下面我们可以看到我们需要post提交的字段信息。

方法二：可以查看源码，进行查找相应提交字段。

四、验证码处理

往往很多登录页面都需要验证码，我们该如何获取验证码，并对其进行解析呢？这就需要nodecr（前身为tesseract），它可以解析到验证码中的数字，本文的解析流程，首先获取登录页面的验证码并保存到本地指定目录，然后通过nodecr第三方工具进行解析得到相应验证码，之后与用户名、密码一并提交，进行模拟登录。部分截图如下：

1.保存过程