爬虫句子迷

作者: Jupiter_19 | 来源:发表于2019-05-22 13:26 被阅读1次

    句子迷网站(www.juzimi.com/)是提供高品质句子的专业句子网站,是一个美句佳句的分享社区。但它有个缺点,就是里面的文字没法直接复制。因而就想到了能否使用网页爬虫的方式摘录句子。试了之后发现,这个网站的爬虫还是比较容易实现的。

    一些爬虫结果

    爬虫鲁迅
    爬虫三体
    爬虫魔戒

    句子迷口号

    爱写字,爱摘抄,不爱平庸;
    爱阅读,爱收藏,不爱遗忘。
    迷恋文字,崇尚共鸣,
    有那么一点点执着,有那么一点点个性,
    不是什么小众,也不是什么大流,
    我们只为那一行行跳动的文字着迷。
    我们是自己精神世界的主人,
    我们是句子迷。

    爬虫代码

    import re,requests
    
    fo = open("爬虫三体.txt", "w")
    pagecount = 15
    
    url = 'https://www.juzimi.com/search/node/%E4%B8%89%E4%BD%93%20type%3Asentence'
    
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
        "Referer": url,
    }
    
    start = r'class="xlistju">'
    end = r'</a></div><div'
    
    def mywrite(params):
        data = requests.get(url, params =params,headers = headers)
        data.encoding = data.apparent_encoding
        
        fir = str(re.findall(start+'.*?'+end,data.text))
        fir = fir.replace(start,'\n')
        fir = fir.replace(end,'\n')
        fir = fir.replace('\', \'','')
        fir = fir.replace('[\'','')
        fir = fir.replace('\']','')
        fir = fir.replace('\\r<br/>','\n')
    
        fo.write(fir)
        print(fir)
    
    for i in range(pagecount):
        if i:
            params = {"page":i}
        else:
            params ={}
        mywrite(params)
    
    fo.close()
    

    相关文章

      网友评论

        本文标题:爬虫句子迷

        本文链接:https://www.haomeiwen.com/subject/vyeyzqtx.html