美文网首页
爬虫基本思路(以bf99为例)

爬虫基本思路(以bf99为例)

作者: CMASTER | 来源:发表于2017-08-10 10:48 被阅读0次
    • 页面分析

    1. 明确自己需要获取的信息:如个人年龄居住地联系方式,获取比较完善的信息,以备绘制用户画像。
    2. 以下图用户信息为例,假如我们需要获取年龄,其对应html元素为class = nav2-25下的第一个font元素的innerText,其他信息同理。
    Paste_Image.png
    1. 以上个页面为例,其页面地址为:其地址是一个不规则散列,所以我们需要找到用户信息页入口。
    Paste_Image.png
    1. 在网站首页,观察网页结构,我们可以以2步的形式获取到,每个用户名带有用户主页连接,其保存在class=photodbgtd标签下的a链接中。至此页面分析结束
    Paste_Image.png
    • 爬虫思路

    1. 编写爬虫基本内容,伪造请求头
    2. 编写函数get_href(),其接受参数end_page,end_pages代表最大爬取页面,get_href会爬取从第一页到end_page的所有class为photodbg的td标签下的a的href,保存这些href
    3. 编写函数get_content(),其参数参数href,会爬取对应href下个人信息,并保存。

    至此,基本功能完成

    More...

    此网站在不登陆情况下无法获取用户联系方式,所以需要模拟登录,并且保存cookie与session。模拟登录时需要填写表单,并且异步获取验证码,暂时打算用PIL解析验证码,手动输入,之后就能获取所有信息。

    相关文章

      网友评论

          本文标题:爬虫基本思路(以bf99为例)

          本文链接:https://www.haomeiwen.com/subject/sjacrxtx.html