爬虫基本思路（以bf99为例）

作者: CMASTER | 来源:发表于2017-08-10 10:48 被阅读0次

明确自己需要获取的信息：如个人年龄、居住地、联系方式，获取比较完善的信息，以备绘制用户画像。
以下图用户信息为例，假如我们需要获取年龄，其对应html元素为class = nav2-25下的第一个font元素的innerText，其他信息同理。

Paste_Image.png

Paste_Image.png

在网站首页，观察网页结构，我们可以以2步的形式获取到，每个用户名带有用户主页连接，其保存在class=photodbg的td标签下的a链接中。至此页面分析结束

Paste_Image.png

编写爬虫基本内容，伪造请求头
编写函数get_href()，其接受参数end_page，end_pages代表最大爬取页面，get_href会爬取从第一页到end_page的所有class为photodbg的td标签下的a的href，保存这些href
编写函数get_content()，其参数参数href，会爬取对应href下个人信息，并保存。

至此，基本功能完成

More...

此网站在不登陆情况下无法获取用户联系方式，所以需要模拟登录，并且保存cookie与session。模拟登录时需要填写表单，并且异步获取验证码，暂时打算用PIL解析验证码，手动输入，之后就能获取所有信息。

网友评论

本文标题：爬虫基本思路（以bf99为例）

本文链接：https://www.haomeiwen.com/subject/sjacrxtx.html