最近在”我学直播“上注册了初中数学辅导老师,也尝试着接了几个小升初的小盆友。其实上课都还好,小盆友蛮好玩、蛮有意思的,就是有一点,让我贼不开心,那就是教材。因为”我学直播“主要是浙江省的生源,所以他们的辅导课基本都是浙教版,之前也在网上找过pdf教材下载,很遗憾没有找到。只有网页在线版。将就了几天,实在受不了了。网上又找不到,没办法,只有自己动手丰衣足食了。
timg.jpg因为网页在线版基本都是图片显示的,于是就萌生了将网页版的图片抠下来,然后合成pdf的想法。奈何页码实在多,而且我不止要一本,而是要所有的教材。
image.png
像我怎么懒的人,怎么会那么老实的去一张一张抠。
也正好python最近🔥的很,借此机会折腾一下也不是不可以。
所以就有了接下来的一系列low逼操作。
1、在之前用的网页版中找到相应div中的图片的url。
image.png2、安装python3
在Mac上安装Python
如果你正在使用Mac,系统是OS X>=10.9,那么系统自带的Python版本是2.7。要安装最新的Python 3.7,有两个方法:
方法一:从Python官网下载Python 3.7的安装程序(网速慢的同学请移步国内镜像),双击运行并安装;
方法二:如果安装了Homebrew,直接通过命令brew install python3安装即可。
3、安装PyCharm
4、码程序
import os
import glob
import fitz
os.makedirs("./images/",exist_ok=True)
IMAGE_URL1 = "http://res.ajiao.com/uploadfiles/Book/77/"
IMAGE_URL2 = "_838x979.jpg"
def download_pic():
from urllib.request import urlretrieve
for numpag in range(1,153):
urlretrieve(IMAGE_URL1+str(numpag)+IMAGE_URL2 , "./images/"+str(numpag)+".png")
download_pic()
def pic2pdf():
doc = fitz.open()
for img in sorted(glob.glob("./images/*")):
imgdoc = fitz.open(img)
pdfbytes = imgdoc.convertToPDF()
imgpdf = fitz.open("pdf", pdfbytes)
doc.insertPDF(imgpdf)
if os.path.exists("./浙教版七年级上册教材.pdf"):
os.remove("./浙教版七年级上册教材.pdf")
doc.save("./浙教版七年级上册教材.pdf")
doc.close()
pic2pdf()
注意:
1、这里需要添加几个Packages,程序才可以正常运行:request、fitz、PyMuPDF。
网友评论