node爬虫-模拟登录(一)

作者: bradys | 来源:发表于2016-11-29 22:16 被阅读424次

执行环境 

windows 7 64位

node 5.8.0

最近在写有关模拟登录的模块,查了一些资料,很多都没有验证码这部分的处理,总结一下,我认为在写之前要理解爬虫的工作原理,理解了数据如何在浏览器与服务器之间进行交互,实现起来就简单了。

爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。当我们将学号、密码及验证码提交后,浏览器首先通过与服务器进行连接,确认我们填的信息正确后,服务器会生成一个sessionId来表示登陆成功的状态,并返回给浏览器,浏览器接受到SessionId之后,作为cookies值保存在浏览器,之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此,获取cookies值是我们做爬虫很关键一步,这样才可以对登录后的页面数据进行爬虫,找到自己需要的数据。

一、准备工作:

1.安装superagent(一个的请求代理模块api,可处理get,post,put,delete,head请求)

npm install superagent

2.安装cheerio(装载已爬取的html网页,类似jQuery,方便获取网页指定数据。)

npm install cheerio

3.安装nodecr(解析验证码)

npm install  nodecr

二:分析网页cookies

首先在浏览器中输入正确的用户和密码进行登录,登录成功后服务器会发送生成的cookie值给浏览器,用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录,还要保存好其发送给我们的cookie值,在之后的请求中将cookie值设置在请求头中进行发送,以获取登录后的其它页面信息。可在控制台中进行查看分析。

三、分析post需要提交的字段

方法一:在同样的控制台页面下面我们可以看到我们需要post提交的字段信息。

方法二:可以查看源码,进行查找相应提交字段。

四、验证码处理

往往很多登录页面都需要验证码,我们该如何获取验证码,并对其进行解析呢?这就需要nodecr(前身为tesseract),它可以解析到验证码中的数字,本文的解析流程,首先获取登录页面的验证码并保存到本地指定目录,然后通过nodecr第三方工具进行解析得到相应验证码,之后与用户名、密码一并提交,进行模拟登录。部分截图如下:

1.保存过程

2.解析登录过程

注:(红色框中输入自己爬取网页的相应字段)

五。转码过程(可选)

有时候我们所要爬取的页面编码为GBK格式则不能正常显示,这时需要进行转码处理

六、登录成功后,这时就该cheerio上场了,cheerio操作类似jquery的用法,先将得到的页面用cheerio进行转载,之后对相应的数据进行处理,取得自己想要的数据。

模拟登录是最基础也最重要的部分,登录之后,我们便可以运用自己的知识对网页进行处理了,比如课表的爬虫,成绩的爬虫等等,你会觉得越来越有意思了。

详细代码:https://github.com/luhongchun/blog/tree/master/node_login

相关文章

  • node爬虫-模拟登录(一)

    执行环境 windows 7 64位 node 5.8.0 最近在写有关模拟登录的模块,查了一些资料,很多都没有验...

  • 模拟登录之果壳网

    模拟登录 模拟登录常用于大型数据爬取,通过模拟登录,获得网站发给用户有效的 cookies,在爬虫爬取数据时,可以...

  • 爬虫模拟登录

    模拟登录心得:完全模拟浏览器的行为,得到链接,发送请求。 遇到的问题 1.get请求的链接可能与post请求的链接...

  • node入门场景之——爬虫

    边做边学效率更高,爬虫是node的适用场景之一,关于爬虫的另一篇文章node爬虫进阶之——登录为了验证“经验总结、...

  • 特斯拉API接口 - 授权登录

    搞了一天,就是拿不下,本来想越过官网跳转浏览器形式登录,直接抓接口模拟登录,发现不行,传统的爬虫是没办法模拟登录了...

  • 各类链接

    爬虫 使用python-aiohttp爬取今日头条 【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...

  • Python爬虫集合,20个爬虫项目让你一次吃到撑!!!

    Python爬虫入门实战教程目录(持续更新中......) 1、淘宝模拟登录 2、淘宝登录数据爬取 3、12306...

  • python爬虫系列-使用selenium模拟豆瓣登录

    title: python爬虫系列-使用selenium模拟豆瓣登录date: 2019-05-14 13:42:...

  • 模拟登陆存在问题

    学习Python爬虫(七)--Scrapy模拟登录的post模拟登陆后,自己写了模拟登陆知乎首页的代码。 测试后发现无效

  • 今日测试

    1. 实现模拟登录 模拟登录人人网,这是初始的一步,同时也是最困难的开头,很值得纪念。 网络爬虫这是我第一接触到的...

网友评论

    本文标题:node爬虫-模拟登录(一)

    本文链接:https://www.haomeiwen.com/subject/ucszpttx.html