用python爬过这些网站，才敢说自己会爬虫！

作者: 轻松学Python111 | 来源:发表于2019-03-29 21:24 被阅读2次

用python爬过这些网站，才敢说自己会爬虫！
2020-03-13
CUMT教务系统模拟登录
学会python语言基础之后，如果还想进阶应该怎么做呢？
python爬虫学习：爬虫QQ说说并生成词云图，又是一波回忆杀
python爬虫学习：爬虫QQ说说并生成词云图，回忆满满
第一次开始写python进行爬虫，如有不对请多谅解并提出
用nodejs和python实现一个爬虫来爬网站（智联招聘）的信
python爬取性感美女图片
Python爬虫技巧

Python爬虫：爬过这些网站，才敢说自己会爬虫！

摘要：微信、知乎、新浪等主流网站的模拟登陆爬取方法。

网络上有形形色色的网站，不同类型的网站爬虫策略不同，难易程度也不一样。从是否需要登陆这方面来说，一些简单网站不需要登陆就可以爬，比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬，比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题，爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容，很花时间。

是不是一定要自己动手去实现每一个网站的模拟登陆方法呢，从效率上来讲，其实大可不必，已经有前人替我们造好轮子了。

最近发现一个神库，汇总了数十个主流网站的模拟登陆方法：

知乎
微信网页版登录并获取好友列表
Bilibili
Facebook
无需身份验证即可抓取Twitter前端API
微博网页版
QQZone
CSDN
淘宝
Baidu
果壳
JingDong 模拟登录
163mail
拉钩
豆瓣
Baidu2
猎聘网
Github
爬取图虫相应的图片
网易云音乐
糗事百科

这些网站基本采用的是直接登录或者 selenium+webdriver 方式。每一个网站都有完整的模拟登陆代码，拿来就可以用到自己的爬虫中。

下面我们来测试一下。

先说说很难爬的「知乎」，假如我们想爬取知乎主页的 HTML 内容，就必须要先登陆才能爬，不然看不到这个界面。下面来简单梳理一下流程。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

知乎需要手机号才能注册登陆。为了方便测试，可以随便找个手机号，手机号到哪儿去找呢，两个神网站保护你的隐私 这篇文章里介绍了一个免费电话号码网站，用上面的手机号可以成功注册。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

顺利登录后就可以进入主页了。

下面，我们用这个库提供的代码来模拟登陆，输出主页 HTML 内容作测试。操作很简单，只需要输入手机号、密码和验证码就可以了。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

成功登陆后，接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息，分析了知乎用户群体画像。

是不是有点意思。

再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来，比如：昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的，应该会很有趣。

Python爬虫：爬过这些网站，才敢说自己会爬虫！

还可以爬 B 站：

Python爬虫：爬过这些网站，才敢说自己会爬虫！

还可以爬链家租房信息：

Python爬虫：爬过这些网站，才敢说自己会爬虫！

还有很多实用有趣的内容，就不一一罗列了，感兴趣的话可以试试，最后放上大神的 GitHub 库地址：

https://github.com/CriseLYJ/awesome-python-login-model

不要闷头造轮子，多抬抬头会发现你在做/想做的东西，别人早已经弄好了，拿来用或者参考学习都是件好事。

用python爬过这些网站，才敢说自己会爬虫！
摘要：微信、知乎、新浪等主流网站的模拟登陆爬取方法。网络上有形形色色的网站，不同类型的网站爬虫策略不同，难易程度...
2020-03-13
仙女姐姐@chuu chloe和@什么七七——python图片爬虫两年以前用爬虫爬过一个学校网站，现在忘得那是一...
CUMT教务系统模拟登录
没爬过自己学校教务网站怎么能说自己会敲爬虫 : ) 在此记录模拟登录cumt教务系统 P.s Markdown学习...
学会python语言基础之后，如果还想进阶应该怎么做呢？
一般学会python之后都有几个方向。比如：用python制作网站。用python做数据分析（爬虫也算是数据...
python爬虫学习：爬虫QQ说说并生成词云图，又是一波回忆杀
自学过一段时间的python，用django自己做了个网站，也用requests+BeautifulSoup爬虫过...
python爬虫学习：爬虫QQ说说并生成词云图，回忆满满
自学过一段时间的python，用django自己做了个网站，也用requests+BeautifulSoup爬虫过...
第一次开始写python进行爬虫，如有不对请多谅解并提出
1、目的首先需要了解自己使用python的目的在于什么我这里使用python进行爬虫，主要爬取网站的数据用这...
用nodejs和python实现一个爬虫来爬网站（智联招聘）的信
最近研究了一下网站爬虫，觉得python和nodejs都有优点，所以我决定实现一个爬虫，用python来抓取网页的...
python爬取性感美女图片
需求：最近对python爬虫感兴趣，于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片，网站： http:/...
Python爬虫技巧
在本文中，我们将分析几个真实网站，来看看我们在《用Python写网络爬虫（第2版）》中学过的这些技巧是如何应用的...