简介:
这是一个基于python3而写的爬虫,爬取的网站的脉脉网(https://maimai.cn/),在搜索框中搜索“CHO”,并切换到“人脉”选项卡,点击姓名,进入详情页,爬取其详细信息
获取的具体信息有:
基本信息、工作经历、教育经历、职业标签及其认可数、点评信息
几度关系:一度、二度、三度等
写给用户的
注意:如果你只是想使用这个项目,那么你可以看这里
如何使用:
使用之前,你要已经保证安装好相关的库和软件:
re
requests
selenium
logging
pymysql
chrome
mysql
使用:
从github上复制代码
填写自己的脉脉手机号和密码(你可以在login.py文件中找到他)
建表(详细建表见下)
运行程序login.py
详细建表
需要5张表,下面附上代码:
表1:basic_info(脉脉好友基本信息)
表2:education_exp(脉脉好友教育经历)
表3:review_info(脉脉好友点评信息)
表4:tag_info(脉脉好友点评信息)
表5:work_exp(脉脉好友工作经历)
模拟登陆
这是使用selenium驱动浏览器登录脉脉,然后获取cookie这样来就省去了自己去拼接cookie的麻烦,获取到cookie之后,在利用cookie来进行requests请求数据,这里不再使用selenium是因为selenium太慢,而且比较容易出错
看一下代码,思路是:
设置selenium参数
使用selenium打开到登录网址
输入手机号和密码,进行登录
获取cookies,并存到json文件中
这样就获取cookies成功了,之后将cookies添加到requests请求中,进行数据获取
网友评论