美文网首页程序员&&简书程序员IT共论
一个爬简书所有历史文章的爬虫

一个爬简书所有历史文章的爬虫

作者: 红绯鱼 | 来源:发表于2016-05-05 22:58 被阅读627次

    闲来无聊写的一个爬虫,因为我看好像没有人写类似的,所以就发上来。
    写出这种并不是特别难。

    原因

    简书上的文章看上去还不错哦
    但是每次只能看到最近发的几篇
    我试过把字典压在下键上面让他翻页
    结果一中午过去了还没翻到底
    但是浏览器已经卡到爆了(╯‵□′)╯︵┻━┻

    怎么办呢
    所以我就写了这个看似非常蠢的脚本,可以直接把简书诞生到现在的所有发过的帖子的链接
    爬下来,要看哪个不看哪个你就自己定夺喽

    当然我只喜欢看与程序员相关的专栏的,其他的我不感兴趣
    要看其他的自己把相应的链接改一下呗

    收获

    中文编码

    保存为utf-8才是王道,开始保存为gbk解析到一多页就碰到了不可解析的字符
    后来还是encode为utf8,然后前面加上标示就行了

    续传

    要是中间网断了就直接从那一页接着写文件就行了

    爬虫文件

    点这里

    相关文章

      网友评论

        本文标题:一个爬简书所有历史文章的爬虫

        本文链接:https://www.haomeiwen.com/subject/zgodrttx.html