文号识别

作者: 月夜星空下 | 来源:发表于2021-12-30 13:49 被阅读0次

文号识别
阿尔文号
说事 ‖ 娘炮现象
原创 ‖ 心语五则
准备做个图文号
观察：医保目录调整，试做药物经济学分析
2018.12.19日周三
中小学心理健康教育指导纲要
2018-08-09
心语 ‖ 人生修行至50

import re
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar

path = r'\\192.168.3.201\szse\regulatory_function\gkxx_jgsy_00000740626.pdf'


def main(file_path):
    featureData = []
    pageIndex = 1
    for page_layout in extract_pages(file_path):
        if (pageIndex > 0):
            for element in page_layout:
                if isinstance(element, LTTextContainer):
                    for text_line in element:
                        text = text_line.get_text()
                        for character in text_line:
                            if isinstance(character,LTChar) and 7.5 <= character.size < 11 and 10 < text.__len__() and re.findall(".*号.*", text).__len__() > 0:
                                featureData.append(str(text).replace('\n', '').replace(' ', ''))
                                break
    return featureData[0]
text = main(path)
print(text)

网友评论

本文标题：文号识别

本文链接：https://www.haomeiwen.com/subject/ermiqrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

文号识别

相关文章

文号识别

阿尔文号

说事 ‖ 娘炮现象

原创 ‖ 心语五则

准备做个图文号

观察：医保目录调整，试做药物经济学分析

2018.12.19日周三

中小学心理健康教育指导纲要

2018-08-09

心语 ‖ 人生修行至50

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读