句子迷网站(www.juzimi.com/)是提供高品质句子的专业句子网站,是一个美句佳句的分享社区。但它有个缺点,就是里面的文字没法直接复制。因而就想到了能否使用网页爬虫的方式摘录句子。试了之后发现,这个网站的爬虫还是比较容易实现的。
一些爬虫结果
爬虫鲁迅爬虫三体
爬虫魔戒
句子迷口号
爱写字,爱摘抄,不爱平庸;
爱阅读,爱收藏,不爱遗忘。
迷恋文字,崇尚共鸣,
有那么一点点执着,有那么一点点个性,
不是什么小众,也不是什么大流,
我们只为那一行行跳动的文字着迷。
我们是自己精神世界的主人,
我们是句子迷。
爬虫代码
import re,requests
fo = open("爬虫三体.txt", "w")
pagecount = 15
url = 'https://www.juzimi.com/search/node/%E4%B8%89%E4%BD%93%20type%3Asentence'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
"Referer": url,
}
start = r'class="xlistju">'
end = r'</a></div><div'
def mywrite(params):
data = requests.get(url, params =params,headers = headers)
data.encoding = data.apparent_encoding
fir = str(re.findall(start+'.*?'+end,data.text))
fir = fir.replace(start,'\n')
fir = fir.replace(end,'\n')
fir = fir.replace('\', \'','')
fir = fir.replace('[\'','')
fir = fir.replace('\']','')
fir = fir.replace('\\r<br/>','\n')
fo.write(fir)
print(fir)
for i in range(pagecount):
if i:
params = {"page":i}
else:
params ={}
mywrite(params)
fo.close()
网友评论