美文网首页
Python PDF提取文本并进行词云展示

Python PDF提取文本并进行词云展示

作者: 火卫控 | 来源:发表于2024-06-30 16:18 被阅读0次

Python 文本分析-词云展示

image.png

vscode中 ipynb运行
.ipynb文件
当前所在文件夹放置待分析pdf文件

1 提取PDF中的文本,保存到txt

import PyPDF2

def extract_text_from_pdf(pdf_path, txt_path):
    with open(pdf_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)
        text = ""
        for page_num in range(len(pdf_reader.pages)):
            page = pdf_reader.pages[page_num]
            text += page.extract_text()
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text)

pdf_path = "./ASV-2024-workshop abstract(p130-648).pdf"  # 替换为您的 PDF 文件路径
txt_path = "output.txt"  # 替换为输出的 TXT 文件路径

extract_text_from_pdf(pdf_path, txt_path)

# 在上述代码中,首先定义了一个名为 extract_text_from_pdf 的函数,它接受 PDF 文件路径和 TXT 文件路径作为参数。然后通过 PyPDF2 库读取 PDF 文件的每一页,并提取文字,最后将提取的文字保存到指定的 TXT 文件中。请确保将代码中的 pdf_path 和 txt_path 替换为实际的文件路径。

2 根据txt内容画词云

代码如下:


import jieba
import wordcloud
from matplotlib import pyplot as plt

def draw_word_cloud(txt_path):
    # 读取 TXT 文件内容
    with open(txt_path, 'r', encoding='utf-8') as f:
        text = f.read()

    # 使用 jieba 进行分词
    words = jieba.lcut(text)
    new_text = " ".join(words)

    # 生成词云
    wc = wordcloud.WordCloud(
        # font_path='simhei.ttf',  # 字体路径,根据实际情况修改
        font_path='arial.ttf',  # 字体路径,根据实际情况修改
        background_color='white',  # 背景颜色
        width=2000, height=1500,  # 图像宽高
        # scale=20, 
        
    )
    wc.generate(new_text)

    # 显示词云图像
    plt.imshow(wc)
    plt.axis('off')  # 不显示坐标轴
    # plt.show()
    plt.savefig("wordcloud_asv2024.jpg",dpi=600)

txt_path = "./output.txt"  # 替换为您的 TXT 文件路径

draw_word_cloud(txt_path)

相关文章

  • 利用python去除pdf水印

    去水印只针对pdf通过给与的水印图,找出相似水印并去除 本文参考资料:Python操作PDF-文本和图片提取(使用...

  • 如何用Python批量提取PDF文本内容?

    本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分...

  • 词云绘制,推荐三种 Python包外加一个在线网站!

    词云是文本可视化的重要方式,可将大段文本中的关键语句和词汇高亮展示, 本篇文章先介绍几种制作词云的 Python ...

  • 《长恨歌》词云

    词云展示 Python代码 TEXT原文

  • PDFBox

    解析PDF中的表格 从现有的PDF文档中提取文本 提取文本是PDFBox的主要功能之一。 可以使用PDFTextS...

  • PDF文本信息提取(二)

    PDF文本信息提取(二) 本文作者:王碧琪文字编辑:方 言技术总编:张 邯 在之前的推文《提取PDF文本信...

  • Python从PDF里提取文本

    业务需要,批量提取下PDF的文本,格式不格式无所谓。 安装 简单试了下,camelot,感觉不太好,没成功,加上官...

  • Python爬虫和情感分析简介

    摘要 这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分...

  • 文本特征提取(2)

    继上期文本特征提取一文以及文本的可读性探究后,继续推出文本特征提取二,从词集型、词袋型提取文本特征。 文本特征提取...

  • SwiftUI 组件大全之如何构建多单词词云或标签云

    词云(也称为文本云或标签云)是以不同大小描述的词的集合或集群。提取文本数据中最相关的部分是理想的。 有很多 Git...

网友评论

      本文标题:Python PDF提取文本并进行词云展示

      本文链接:https://www.haomeiwen.com/subject/zvppcjtx.html