爬取每个众筹项目以下内容
- 名字
- 众筹状态
- 期望众筹金额
- 已筹得金额
- 项目所属类别
- 支持者数量
- 项目进展
- 项目评论
成果展示:
评论
思路:
以上信息需要在二级页面采集,在一级页面拿到每个二级页面的URL是关键。
一级页面:第一页是静态;之后的全是AJAX加载;
向目标URL携带参数发请求即可,参数中categoryId是当前众筹所属类别,page为页码。
二级页面URL: 第一页xpath后拼接即可,AJAX的通过发请求获取内容解析后获得。
由此一来就进了二级页面,二级页面中除了项目评论这一项,其他的都可以解析页面源代码获取。项目评论需再次发相应请求获取。
找到评论包,双击打开如下
CSRF
是因为京东加了CSRF验证机制
评论获取方法携带参数再次发送即可。完~
仅提供解决思路,不可做非法牟利或恶意攻击,否则由此带来的后果自行承担,与作者本人无关!
网友评论