周末两天基本都在研究如何爬取知乎具体一个问答下的所有回答,有几点记录下。
1.动态网页抓取,可以使用selenium模拟浏览器,多适用于有“点击加载更多”的按钮。但知乎是属于要下拉判断的,所以更适合用‘network’查询网页元素的方式获取新的地址。
2.利用requests得到的是json格式的数据,用json.loads()去读取相关数据。
3.利用两本书交叉着看确实很有效率。
周末两天基本都在研究如何爬取知乎具体一个问答下的所有回答,有几点记录下。
1.动态网页抓取,可以使用selenium模拟浏览器,多适用于有“点击加载更多”的按钮。但知乎是属于要下拉判断的,所以更适合用‘network’查询网页元素的方式获取新的地址。
2.利用requests得到的是json格式的数据,用json.loads()去读取相关数据。
3.利用两本书交叉着看确实很有效率。
本文标题:2019-10-20 学习爬虫的几点笔记
本文链接:https://www.haomeiwen.com/subject/jrtzmctx.html
网友评论