GitHub 热门：各大网站的 Python 爬虫登录汇总

作者: 我爱学python | 来源:发表于2019-03-20 15:56 被阅读0次

GitHub 热门：各大网站的 Python 爬虫登录汇总
GitHub 热门：各大网站的 Python 爬虫登录汇总
各类链接
各大网站的 Python 爬虫登录汇总！爬虫必会技能之一！
Python爬虫学习--Python爬虫模拟登录带验证码网站
Github：Python爬虫实战-模拟登陆各大网站
18个网站的Python爬虫登录示例 | 开源项目推荐
一篇文章教你如何利用Python模拟GitHub登录
Scrapy用Cookie实现模拟登录
Python爬虫，京东自动登录，在线抢购商品

不论是自然语言处理还是计算机视觉，做机器学习算法总会存在数据不足的情况，而这个时候就需要我们用爬虫获取一些额外数据。这个项目介绍了如何用 Python 登录各大网站，并用简单的爬虫获取一些有用数据，目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。

项目地址：https://github.com/CriseLYJ/awesome-python-login-model

作者收集了一些网站的登陆方式和爬虫程序，有的通过 selenium 登录，有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式，并爬取一些需要的数据。

作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式，有的网站直接登录难度很大，比如 qq 空间和 bilibili 等，采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium，但为了效率，我们也可以在登录后维护得到的 cookie。登录后，我们就能调用 requests 或者 scrapy 等工具进行数据采集，这样数据采集的速度可以得到保证。

目前已经完成的网站有：

Facebook

无需身份验证即可抓取 Twitter 前端 API

微博网页版

知乎

QQZone

CSDN

淘宝

Baidu

果壳

JingDong 模拟登录和自动申请京东试用

163mail