这是按照https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/ApnEy6NWS2f-DqIIrhHzGw的源代码来的
自己改了一点点标签,一开始直接复制他的源代码并不能爬取糗事百科的文本,之后改掉了一些标签属性。不是很清楚他怎么下载,怎么存到文件里的,也不知道他怎么做到把性别,点赞,评论都爬下来整理好的。还有很多标签属性不知道它是如何挑选的,因为我发现很多class 属性很长,但是代码里很短都能爬出来,比如article和网页源代码里的。对于怎么根据标签爬取内容不是很了解。
改了之后的代码也就是图片上的代码能够爬取文本了
网友评论