2019-11-15 爬虫 acfun

作者: 一只失去梦想的程序猿 | 来源:发表于2019-11-15 19:19 被阅读0次

2019-11-15 爬虫 acfun
莞尔简语
警视厅特务部特殊凶恶犯对策室第七课 -特7-
小帅的Scalers Talk第五轮新概念朗读持续力训练Day1
盘点除B站外，那些实用的二次元网站？
AcFun产品分析
传A站要倒闭，官网已经无法使用！
科普 | ABCEFGXYZ站
科普‖人们口中常说的A站、B站、C站、D站、E站都是什么？
A站关停：从来没有人放弃Acfun，只有被她放弃的人

目标网站：https://www.acfun.cn/
爬取所有用户，数量较大，使用scrapy框架

image.png
接口比较简单每个人都有一个UId 循环就好
获取个人信息通过抓取手机app获得

    def start_requests(self):
        for x in range(1, 100000):
            ua = random.choice(user_agent_list)
            self.headers = {
                'User-Agent': ua,
                'deviceType': 0
            }
            url = 'https://apipc.app.acfun.cn/v2/user/content/profile?app_version=5.10.2&market=appstore&origin=ios&resolution=750x1334&sys_name=ios&sys_version=12.0&userId=%s' % x
            yield Request(url,headers=self.headers,callback=self.parse)

整理需要保存的信息：

    def parse(self,response):
        try:
            result = json.loads(response.text)
            userid=result['vdata']['userId']
            userName=result['vdata']['username']
            fenceNum=result['vdata']['followed']
            bananaGold=result['vdata']['bananaGold']
            userImg=result['vdata']['userImg']

            print('正在抓取第%s条数据:%s,%s,%s,%s'%(userid,userid,userName,fenceNum,bananaGold))

setting文件里设置下log级别