#coding:utf-8
import os
import pandas as pd
from PyPDF2 import PdfReader
# 指定要读取的文件夹路径
folder_path = r'E:/临时文件/'
# 获取文件夹下的所有PDF文件
pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]
# 存储PDF文件的页码信息
pdf_page_info = []
# 遍历每个PDF文件
# for file_name in pdf_files:
#使用enumerate()函数来同时获取循环的次数和元素值,index来写编号
for index,file_name in enumerate(pdf_files):
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'rb') as file:
# 创建PDF阅读器对象
reader = PdfReader(file)
# 获取PDF文件的页数
# num_pages = reader.getNumPages()
num_pages = len(reader.pages)
# 将文件名称、页码数量和备注添加到列表中
# pdf_page_info.append((os.path.splitext(file_name)[0], file_name, num_pages, ''))
pdf_page_info.append((index+1, file_name, num_pages, ''))
# 创建Excel文件并输出数据
df = pd.DataFrame(pdf_page_info, columns=['编号', '文件名称', '页码数量', '备注'])
df.to_excel('output.xlsx', index=False)
网友评论