DatistEQ之文件编目

作者: 了无_数据科学 | 来源:发表于2020-11-20 18:27 被阅读0次

    文件的重新编目,是一种日常的基础工作。将杂乱的文件,整理成规范的数据格式,进行统一命名,以便文件使用、查阅、归档入库。文件编目主要包括重新组织文件目录、文件命名标准化、格式转换等,工作内容简单、易错,少量的文件,可以通过手工完成,然而对面数量较多的文件量,这种枯燥的重复劳动,会让身心俱疲。对于这类问题,应该交给数据专家来完成,让它成为我们工作的助手。

    最近接到一个任务,统计近几年科室获得软件著作权证书,并生成成果文档,用于年底的成果上报,就属于这类情形。下面给大家介绍一下,数据专家中流程编写过程。

    一、数据特征

    1、软件著作权登记证书和人员名单文件,PDF、PNG、JPG格式,多数文件以著作权的中文名称命名。

    2、软件著作权基本信息表,Excel格式,包含软件著作权中文名称、登记号、申请年份等基础信息。

    二、编写目标

    1、将证书文件、人员名单图像统一转换成JPG图片格式。

    2、证书以“推荐年份名称国家软件登记号.JPG”方式重命名。

    3、人员名单以“推荐年份名称国家软件登记号_名单编号.JPG”方式重命名。

    三、流程难点

    1、区分证书与人员名单文件,原始目标中,证书文件和人员名单文件放在一起,以近似相同的名称进行命名,如“数据采集软件.pdf”与“数据采集软件.jpg”。证书和人员名单文件,在文件格式、文件命名上没有严格的差异,无法从名称关键字、文件格式角度入手区分两者。

    2、证书的文件名与Excel基本信息中名称,不完全相同,如“传输与协同工作系统”与“传输与协同工作平台”。名称之间是一种相似关系,不能通过包含或是完全等于关系进行匹配。

    四、流程编写

    编写的流程如下图所示,通过扫描目录节点将证书、人员名单文件引入数据流程中;智能解析节点将存储在Excel文件中软件著作权基本信息数据引入流程中;再使用一系列新列、过滤节点计算出文件类型;合并节点将文件与基本信息对应起来,以便于文件格式转换节点及数据项目转换节点进行文件重新编目。

    流程

    整个流程中比较关键有以下两个步骤:

    1、读取图像尺寸信息,以便于区分证书与名单。区分两类文件,无疑是整个流程的灵魂所在,在文件名称、数据格式上找不出突破口。我们发现,证书是高度大于宽度的,而名单刚好相反。

    图像信息新列节点,通过ImageInfo节点提取文件的宽度、高度信息。

    图像信息

    类型新列节点,通过条件方式创建新列,完成区分证书与名单的动作。

    区分类型

    2、两个分支流程的模拟匹配。这里合并节点使用的是表达式模式,关键在于Similarly函数,它用于计算两个文本相似度,支持编辑距离、汉明距离、最长公共字串等多种算法。

    分支合并

    3、文件格式转换节点,将PDF、PNG等系列文件格式,转成了JPG的文件格式,大幅度压缩了文件的大小。对PDF文件格式的转换尤其特殊,PDF转图片,笔者尝试了多种方式均以失败而告终,是工具的问题,还是方法的问题,成了一个未解之迷。

    格式转换

    4、文件标准命名,同样使用是条件方式创建新列,通过F函数,快速构造标准化文件名称。

    标准命名

    五、流程成效

    通过文件编目流程,笔者将41个软件著作权涉及的88个文件进行编目。虽然在文件编目过程中,因证书与名单区分困难,尝试了多种渠道,花费了不少时间,但笔者认为这种过程中,有很多值得总结与分享地方。

    一是在数据专家是一个低代码工具,可以尝试多种方式去解决遇到问题。正所谓条条大路通北京,相信它能够帮助我们解决问题,总从中找一个比较简洁、高效的解决方案。要善于挖掘隐藏在数据背后的信息,或许换一个角度就是,柳暗花明又一村了。

    二是虽然处理文件数据量不是太多,可能通过手工完成所花的时间,比较编写流程要少,但笔者不愿意那么干,因为流程给我们工作带来成就,而手工没有。

    最后,与君分享一下工作成效。

    原始文件:

    原始文件

    编目后的文件:

    编目后

    相关文章

      网友评论

        本文标题:DatistEQ之文件编目

        本文链接:https://www.haomeiwen.com/subject/pohjiktx.html