08_知乎

作者: 过桥 | 来源:发表于2017-06-02 15:39 被阅读252次

    简述

    本节继续实现知乎关注对象用户信息,主要使用 json 解析,cookie 模拟等手段实现。

    目标对象

    依旧是知乎轮子哥关注对象

    使用包

    import codecs
    import json
    import time, os #定时抓取
    import requests 
    import datetime #精确时间
    

    主要实现方式

    Paste_Image.png

    通过抓包分析,确定目标json,尝试直接抓取,返回封装错误

    {'error': {'message': '请求头或参数封装错误', 'code': 100, 'name': 'AuthenticationInvalidRequest'}}
    

    尝试直接使用已登录cookie抓取

    cookies = {}
    
    raw_cookies = '自己的key,可通过F12浏览器,查看替换'
    
    for line in raw_cookies.split(':'):
        key,value = line.split('=', 1)
        cookies[key] = value
    
    def download_page(url):
        return requests.get(url,cookies=cookies, headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
        }, timeout=120).json()
    

    返回json解析

    Paste_Image.png

    总结

    本次实现过程中主要涉及cookie模拟(还可扩展自行实现模拟登录,获取cookie),其他递归操作、文件输出、图片另存均于之前示例一致,只能算简单复习。

    Paste_Image.png

    源码:
    spider_www.zhihu.com_following_json

    相关文章

      网友评论

        本文标题:08_知乎

        本文链接:https://www.haomeiwen.com/subject/qyiefxtx.html