道客巴巴是一个类似百度文库的在线文档下载网站,今天一个哥们儿想写个Python爬虫爬取道客巴巴的文档,于是我写了个Python爬虫的demo,哥们儿收到后非常满意
2020-10-14-doc88009.gif相关代码demo下载链接: https://zhaooolee.cowtransfer.com/s/7ad50e575b9140
但对于普通吃瓜群众而言,只需要下载单个文件就够了,于是我总结了一个简单可行的方法
目标网页
http://www.doc88.com/p-3651708817002.html
打开控制台,输入以下代码,回车
function downloadPages(from, to) {
for (i = from; i <= to; i++) {
const pageCanvas = document.getElementById('page_' + i);
if (pageCanvas === null) { break; }
const pageNo = parseInt(String(i));
setTimeout(() => {
console.log("==pageNo==>>", pageNo);
((num) => {
console.log("开始打印第" + num + "页");
pageCanvas.toBlob(
blob => {
const anchor = document.createElement('a');
anchor.download = 'page_' + num + '.png';
anchor.href = URL.createObjectURL(blob);
anchor.click();
URL.revokeObjectURL(anchor.href);
}
);
})(pageNo);
}, 500 * pageNo);
}
}
文档有18页,所以代码为1到18
downloadPages(1, 18)
文档将分页保存为PNG图片
2020-10-14-doc88003.gif将PNG保存为便于打印的PDF
进入 https://smallpdf.com/cn/jpg-to-pdf 批量上传png图片
2020-10-14-doc88007.gif获得PDF成功,可以去打印了~
网友评论