美文网首页
糗事百科爬虫

糗事百科爬虫

作者: Rain师兄 | 来源:发表于2020-10-02 02:19 被阅读0次

    这是按照https://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/ApnEy6NWS2f-DqIIrhHzGw的源代码来的

    自己改了一点点标签,一开始直接复制他的源代码并不能爬取糗事百科的文本,之后改掉了一些标签属性。不是很清楚他怎么下载,怎么存到文件里的,也不知道他怎么做到把性别,点赞,评论都爬下来整理好的。还有很多标签属性不知道它是如何挑选的,因为我发现很多class 属性很长,但是代码里很短都能爬出来,比如article和网页源代码里的。对于怎么根据标签爬取内容不是很了解。

    改了之后的代码也就是图片上的代码能够爬取文本了

    相关文章

      网友评论

          本文标题:糗事百科爬虫

          本文链接:https://www.haomeiwen.com/subject/fygmuktx.html