DatistEQ之文件编目

作者: 了无_数据科学 | 来源:发表于2020-11-20 18:27 被阅读0次

文件的重新编目,是一种日常的基础工作。将杂乱的文件,整理成规范的数据格式,进行统一命名,以便文件使用、查阅、归档入库。文件编目主要包括重新组织文件目录、文件命名标准化、格式转换等,工作内容简单、易错,少量的文件,可以通过手工完成,然而对面数量较多的文件量,这种枯燥的重复劳动,会让身心俱疲。对于这类问题,应该交给数据专家来完成,让它成为我们工作的助手。

最近接到一个任务,统计近几年科室获得软件著作权证书,并生成成果文档,用于年底的成果上报,就属于这类情形。下面给大家介绍一下,数据专家中流程编写过程。

一、数据特征

1、软件著作权登记证书和人员名单文件,PDF、PNG、JPG格式,多数文件以著作权的中文名称命名。

2、软件著作权基本信息表,Excel格式,包含软件著作权中文名称、登记号、申请年份等基础信息。

二、编写目标

1、将证书文件、人员名单图像统一转换成JPG图片格式。

2、证书以“推荐年份名称国家软件登记号.JPG”方式重命名。

3、人员名单以“推荐年份名称国家软件登记号_名单编号.JPG”方式重命名。

三、流程难点

1、区分证书与人员名单文件,原始目标中,证书文件和人员名单文件放在一起,以近似相同的名称进行命名,如“数据采集软件.pdf”与“数据采集软件.jpg”。证书和人员名单文件,在文件格式、文件命名上没有严格的差异,无法从名称关键字、文件格式角度入手区分两者。

2、证书的文件名与Excel基本信息中名称,不完全相同,如“传输与协同工作系统”与“传输与协同工作平台”。名称之间是一种相似关系,不能通过包含或是完全等于关系进行匹配。

四、流程编写

编写的流程如下图所示,通过扫描目录节点将证书、人员名单文件引入数据流程中;智能解析节点将存储在Excel文件中软件著作权基本信息数据引入流程中;再使用一系列新列、过滤节点计算出文件类型;合并节点将文件与基本信息对应起来,以便于文件格式转换节点及数据项目转换节点进行文件重新编目。

流程

整个流程中比较关键有以下两个步骤:

1、读取图像尺寸信息,以便于区分证书与名单。区分两类文件,无疑是整个流程的灵魂所在,在文件名称、数据格式上找不出突破口。我们发现,证书是高度大于宽度的,而名单刚好相反。

图像信息新列节点,通过ImageInfo节点提取文件的宽度、高度信息。

图像信息

类型新列节点,通过条件方式创建新列,完成区分证书与名单的动作。

区分类型

2、两个分支流程的模拟匹配。这里合并节点使用的是表达式模式,关键在于Similarly函数,它用于计算两个文本相似度,支持编辑距离、汉明距离、最长公共字串等多种算法。

分支合并

3、文件格式转换节点,将PDF、PNG等系列文件格式,转成了JPG的文件格式,大幅度压缩了文件的大小。对PDF文件格式的转换尤其特殊,PDF转图片,笔者尝试了多种方式均以失败而告终,是工具的问题,还是方法的问题,成了一个未解之迷。

格式转换

4、文件标准命名,同样使用是条件方式创建新列,通过F函数,快速构造标准化文件名称。

标准命名

五、流程成效

通过文件编目流程,笔者将41个软件著作权涉及的88个文件进行编目。虽然在文件编目过程中,因证书与名单区分困难,尝试了多种渠道,花费了不少时间,但笔者认为这种过程中,有很多值得总结与分享地方。

一是在数据专家是一个低代码工具,可以尝试多种方式去解决遇到问题。正所谓条条大路通北京,相信它能够帮助我们解决问题,总从中找一个比较简洁、高效的解决方案。要善于挖掘隐藏在数据背后的信息,或许换一个角度就是,柳暗花明又一村了。

二是虽然处理文件数据量不是太多,可能通过手工完成所花的时间,比较编写流程要少,但笔者不愿意那么干,因为流程给我们工作带来成就,而手工没有。

最后,与君分享一下工作成效。

原始文件:

原始文件

编目后的文件:

编目后

相关文章

  • DatistEQ之文件编目

    文件的重新编目,是一种日常的基础工作。将杂乱的文件,整理成规范的数据格式,进行统一命名,以便文件使用、查阅、归档入...

  • DatistEQ云之文件服务异常

    最近一段时,一直在进行DatistEQ云平台的研发,在测试通过DatistEQ提供Word文件时,发现文件下载后,...

  • DatistEQ之Windows标准API

    2021 Q1版DatistEQ提供标准Windows API,应用程序可给DatistEQ发送一个或多个文件的路...

  • DatistEQ之智能解析的三种取值方式

    在文章《DatistEQ之批量抽取仪器状态数据》[https://www.jianshu.com/p/028248...

  • DatistEQ之拆分仪器状态数据

    在前文《DatistEQ之批量抽取仪器状态数据[https://www.jianshu.com/p/028248e...

  • DatistEQ之重构

    近期全身心地投入到底层的代码重构之中,与十年来的自己对话,翻阅十年来的所有代码,从每一行至每个类,从接口到代码功能...

  • 编目扫盲帖——关于编目规则

    一、英美编目条例(Anglo-American Cataloguing Rules,简称AACR) 1967年出版...

  • DatistEQ之自定义节点

    本文旨在说明,DatistEQ原生节点及编辑器的定义方法。定义节点 定义节点编辑器 对应的xaml文件。 节点的图...

  • 编目简写

    IFLA 国际图书馆协会联合会(International Federation of Library Assoc...

  • DatistEQ之F函数

    字符串格式显示是数据专家中的常用的功能之一。F函数是为了替代format();原先赋值需要占位符和变量,当需要拼接...

网友评论

    本文标题:DatistEQ之文件编目

    本文链接:https://www.haomeiwen.com/subject/pohjiktx.html