Python模拟登陆并爬去GitHub

Python模拟登陆并爬去GitHub

作者: 我爱学python | 来源:发表于2019-07-31 15:59 被阅读10次

Python模拟登陆并爬去GitHub
Python模拟Github登陆
【小白学爬虫连载（10）】--如何用Python实现模拟登陆网站
python模拟自动登录github，设置邮箱提醒
Python模拟登陆GitHub
python爬虫模拟豆瓣登录
【爬虫】十分钟写一个简单爬虫
webdriver
在python环境中配置selenium模拟谷歌浏览器登陆
Python-requests-Github模拟登陆

(1)环境准备:

请确保已经安装了requests和lxml库

(2)分析登陆过程:

首先要分析登陆的过程，需要探究后台的登陆请求是怎样发送的，登陆之后又有怎样的处理过程。

如果已经登陆GitHub，则需要先退出登陆，同时清除Cookies

打开GitHub的登陆页面，链接为https://github.com/login，输入GitHub的用户名和密码，打开开发者工具，将Preserver Log选项勾选上，这表示持续日志，如下图所示

点击登录按钮，这时便会看到开发者工具下方显示了各个请求过程，如下图所示：

点击session请求，进入其详情，如下图所示：

可以看到请求的URL为https://www.github.com/session,请求方式为POST。再往下看，我们观察到他的Form Data和Headers这两部分内容，

如下图所示：

Headers里面包含了Cookies，Host，Origin，Refer，User-Agent等信息。Form Data包含了5个字段，commit是固定的字符串Sign in，utf8

是一个勾选字符，authenticity_token较长，其初步判断是一个Base64加密的字符串，login是登陆的用户名，password是登陆的密码。

综上所述，我们现在无法直接构造的内容有Cookies和authenticity_token。下面我们再来探寻一下这部分内容如何获取。

在登陆之前我们会访问到一个登陆页面，此页面是通过GET形式访问的。输入用户名和密码，点击登录按钮，浏览器发送这两部分信息，也就是

说Cookies和authenticity_token一定在访问扥估页面时候设置的。

这时在退出登陆，回到登录页，同时清除Cookies，重新访问登录页，截获发生的请求，如下图所示：

访问登陆页面的请求如上，Response Headers有一个Set-Cookie字段。这就是设置Cookies的过程。

另外，我们发现Response Headers没有和authenticity_token相关的信息，所以可能authenticity_token还隐藏在其他的地方或者是计算出来的。我们再从网页的源码探寻，搜索相关字段，发现源代码里面还隐藏着此信息，他是一个隐藏式表单元素，如下图所示：

现在我们已经获取到网页所有信息，接下来让我们实现模拟登陆

(3)代码如下:

相关文章

Python模拟登陆并爬去GitHub
(1)环境准备: 请确保已经安装了requests和lxml库 (2)分析登陆过程: 首先要分析登陆的过程，需要探...
Python模拟Github登陆
Python模拟Github登陆，详情请查看源码点链接进入Python-Spiders文集，模拟Github登陆可...
【小白学爬虫连载（10）】--如何用Python实现模拟登陆网站
欢迎关注【哈希大数据】获取详细信息!!! Python如何实现模拟登陆爬取 Python实现模拟登陆的方式简单来说...
python模拟自动登录github，设置邮箱提醒
[TOC] Python模拟Github登陆，详情请查看源码点链接进入Python-Spiders文集，模拟Git...
Python模拟登陆GitHub
终端效果：代码实现：
python爬虫模拟豆瓣登录
好几天过去了，终于可以更新第二篇爬虫，这次想用python爬虫模拟登陆豆瓣并爬取主页上精选内容的标题部分，确认登录...
【爬虫】十分钟写一个简单爬虫
本文主要介绍selenium（一个测试工具）来模拟登陆并爬取数据 if name == 'main':driver...
webdriver
webdriver：一款类似于RSelenium的包，可以用于爬取动态网页，模拟点击翻页登陆等操作，GitHub地...
在python环境中配置selenium模拟谷歌浏览器登陆
在浏览器进行爬取网页，模拟登陆的时候可能需selenium模拟浏览器的行为在此我是用的是谷歌浏览器，python...
Python-requests-Github模拟登陆
用简书很久了，从来都是看人家写的文章，参考别人的代码，从小学开始，一让写文章就不知道该如何下手的我，居然突...

网友评论

Python爬虫系列

本文标题：Python模拟登陆并爬去GitHub

本文链接：https://www.haomeiwen.com/subject/cvjtdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

Python爬虫系列

热点阅读

Python爬虫系列

关于我们|服务条款|联系我们|Python模拟登陆并爬去GitHub|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！