美文网首页
Python小工具之读取文件夹下pdf文件及获取pdf页数

Python小工具之读取文件夹下pdf文件及获取pdf页数

作者: mango115 | 来源:发表于2023-11-29 10:28 被阅读0次
    #coding:utf-8
    import os  
    import pandas as pd  
    from PyPDF2 import PdfReader  
      
    # 指定要读取的文件夹路径  
    folder_path = r'E:/临时文件/'
      
    # 获取文件夹下的所有PDF文件  
    pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]  
      
    # 存储PDF文件的页码信息  
    pdf_page_info = []  
      
    # 遍历每个PDF文件  
    # for file_name in pdf_files:  
    #使用enumerate()函数来同时获取循环的次数和元素值,index来写编号
    for index,file_name in enumerate(pdf_files): 
        file_path = os.path.join(folder_path, file_name)  
        with open(file_path, 'rb') as file:  
            # 创建PDF阅读器对象  
            reader = PdfReader(file)  
            # 获取PDF文件的页数  
            # num_pages = reader.getNumPages()  
            num_pages = len(reader.pages)  
            # 将文件名称、页码数量和备注添加到列表中  
            # pdf_page_info.append((os.path.splitext(file_name)[0], file_name, num_pages, ''))  
            pdf_page_info.append((index+1, file_name, num_pages, ''))  
      
    # 创建Excel文件并输出数据  
    df = pd.DataFrame(pdf_page_info, columns=['编号', '文件名称', '页码数量', '备注'])  
    df.to_excel('output.xlsx', index=False)
    

    相关文章

      网友评论

          本文标题:Python小工具之读取文件夹下pdf文件及获取pdf页数

          本文链接:https://www.haomeiwen.com/subject/zoxfgdtx.html