简述

本节继续实现知乎关注对象用户信息，与上节不同之处在于以一个种子作为入口，循环抓取其关注头像并存储，便于后续统计分析。

目标对象

使用包

import json
import time, os 
import requests
import datetime
from MSSql_SqlHelp import MSSQL

实现逻辑

1、数据表设计
因涉及数据量可能较多，单纯Excel管理不利于维护，故设计数据表如下

数据表结构
2、逻辑拆分
单用户递归分页抓取，信息入库

def beginSpider(DOWNLOAD_User, pageNum):
    print("抓取用户 "+ DOWNLOAD_User + " ，页码 "+ str(pageNum))

    try:
        json = download_page(DOWNLOAD_URL.replace('{DOWNLOAD_User}',DOWNLOAD_User).replace('{offset}',str(pageNum * 20)))
    except:
        print("抓取异常：" + DOWNLOAD_URL.replace('{DOWNLOAD_User}',DOWNLOAD_User).replace('{offset}',str(pageNum * 20)))
        time.sleep(2) #延迟N秒再抓取
        json = download_page(DOWNLOAD_URL.replace('{DOWNLOAD_User}',DOWNLOAD_User).replace('{offset}',str(pageNum * 20)))

    #print(json)

    #解析入库.........
 
    #如果有下页，递归
    if json["paging"]["is_end"] == False:
        return pageNum + 1
    return None

多用户序列状态管理

def main():

    now = datetime.datetime.now()
    print("开始时间：" + now.strftime('%Y-%m-%d %H:%M:%S'))  

    DOWNLOAD_User = getSeed() #从序列中获取下一个带抓取用户

    if DOWNLOAD_User == -1:
        print("无待抓取序列，程序终止")
        return None

    pageNum = 0

    while pageNum != None:
        pageNum = beginSpider(DOWNLOAD_User, pageNum)

    updateUser(DOWNLOAD_User) #更新用户状态为已抓取

    now = datetime.datetime.now()
    print("结束时间：" + now.strftime('%Y-%m-%d %H:%M:%S'))  

    time.sleep(30) #延迟N秒再抓取
    main()