爬虫句子迷

作者: Jupiter_19 | 来源:发表于2019-05-22 13:26 被阅读1次

句子迷网站(www.juzimi.com/)是提供高品质句子的专业句子网站,是一个美句佳句的分享社区。但它有个缺点,就是里面的文字没法直接复制。因而就想到了能否使用网页爬虫的方式摘录句子。试了之后发现,这个网站的爬虫还是比较容易实现的。

一些爬虫结果

爬虫鲁迅
爬虫三体
爬虫魔戒

句子迷口号

爱写字,爱摘抄,不爱平庸;
爱阅读,爱收藏,不爱遗忘。
迷恋文字,崇尚共鸣,
有那么一点点执着,有那么一点点个性,
不是什么小众,也不是什么大流,
我们只为那一行行跳动的文字着迷。
我们是自己精神世界的主人,
我们是句子迷。

爬虫代码

import re,requests

fo = open("爬虫三体.txt", "w")
pagecount = 15

url = 'https://www.juzimi.com/search/node/%E4%B8%89%E4%BD%93%20type%3Asentence'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
    "Referer": url,
}

start = r'class="xlistju">'
end = r'</a></div><div'

def mywrite(params):
    data = requests.get(url, params =params,headers = headers)
    data.encoding = data.apparent_encoding
    
    fir = str(re.findall(start+'.*?'+end,data.text))
    fir = fir.replace(start,'\n')
    fir = fir.replace(end,'\n')
    fir = fir.replace('\', \'','')
    fir = fir.replace('[\'','')
    fir = fir.replace('\']','')
    fir = fir.replace('\\r<br/>','\n')

    fo.write(fir)
    print(fir)

for i in range(pagecount):
    if i:
        params = {"page":i}
    else:
        params ={}
    mywrite(params)

fo.close()

相关文章

  • 爬虫句子迷

    句子迷网站(www.juzimi.com/)是提供高品质句子的专业句子网站,是一个美句佳句的分享社区。但它有个缺点...

  • Python爬虫练手之爬句子迷

    缘由 《北京遇上西雅图2不二情书》上映其实很久了,然而,最近才有时间从网上拖下来看(原谅,我们这破旧的小地方没有电...

  • 留下自己很喜欢的句子叭~

    句子迷.

  • 2018-02-26

    精典迷句子

  • 句子迷

    光阴稀碎,夜色朦朦。 你在做甚么梦? 茶叶清冷,咖啡味浓, 好一片田野,草原,天空。 有没有,火车,行囊,上海的凤...

  • 句子迷

    从一开始摆正自己的位置,比任何天真热血的设想,都来得更重要。 余生很长,你的高潮,应该永远在下一公里。 与放弃的感...

  • 句子迷

    很喜欢这么一句话,不亏待每一份热情,不讨好任何的冷漠。

  • 句子迷

    告别的时候,尽可能的轻一点,最好像一个玩笑,让彼此觉得还有以后。

  • 句子迷

    不为模糊不清的未来 担忧 只为清清楚楚的现在 努力

  • 句子迷

    小生不才,斗胆一问,不知姑娘是否心系别家公子? 感情之事在下不敢儿戏。 如若姑娘早以心系他人,在下便不再打扰。 如...

网友评论

    本文标题:爬虫句子迷

    本文链接:https://www.haomeiwen.com/subject/vyeyzqtx.html