-
页面分析
- 明确自己需要获取的信息:如个人年龄、居住地、联系方式,获取比较完善的信息,以备绘制用户画像。
- 以下图用户信息为例,假如我们需要获取年龄,其对应html元素为
class = nav2-25
下的第一个font
元素的innerText
,其他信息同理。
Paste_Image.png
- 以上个页面为例,其页面地址为:其地址是一个不规则散列,所以我们需要找到用户信息页入口。
Paste_Image.png
- 在网站首页,观察网页结构,我们可以以2步的形式获取到,每个用户名带有用户主页连接,其保存在
class=photodbg
的td
标签下的a
链接中。至此页面分析结束
Paste_Image.png
-
爬虫思路
- 编写爬虫基本内容,伪造请求头
- 编写函数get_href(),其接受参数end_page,end_pages代表最大爬取页面,get_href会爬取从第一页到end_page的所有class为photodbg的
td
标签下的a
的href,保存这些href - 编写函数get_content(),其参数参数href,会爬取对应href下个人信息,并保存。
至此,基本功能完成
More...
此网站在不登陆情况下无法获取用户联系方式,所以需要模拟登录,并且保存cookie与session。模拟登录时需要填写表单,并且异步获取验证码,暂时打算用PIL解析验证码,手动输入,之后就能获取所有信息。
网友评论