美文网首页
CPDA数据分析师培训:可否使用RPA帮助进行数据清理以进行分析

CPDA数据分析师培训:可否使用RPA帮助进行数据清理以进行分析

作者: CPDA数据分析师培训 | 来源:发表于2020-12-28 09:43 被阅读0次

    来源:CPDA数据分析师网 / 作者:数据君 /


    对于用户来说是艰苦的手工工作,并且极大地减慢了业务流程

    但是如果不进行此项工作,则业务流程将无法进行,由于数据质量差,分析结果的准确性也将受到威胁,这就引出了一个问题:机器人过程自动化(RPA)之类的技术能否完成一些艰苦的数据清理工作?

    什么是RPA?

    RPA是可以部分或完全自动化手动,基于规则和重复的人工活动的软件,RPA通过在诸如数据输入之类的死活任务中复制人类的行为来做到这一点,RPA的工作方式如下,用户一次输入新发票数据,此后自动化软件将接管,它是通过从用户输入的屏幕上抓取数据,然后将数据移到也需要它的其他系统中来实现的,这样可以确保系统之间数据的一致性,还可以将业务和数据编辑规则编码到RPA中,从而能够根据业务或其系统设置的标准对数据进行规范化或校正。

    CPDA数据分析师

    RPA适合(不适合)数据清理的地方

    因为您可以将自己的数据编辑和规范化规则编程到RPA例程中,所以可以自动执行用户有时必须执行的手动工作,以确保高质量的数据进行分析,也有一些限制,例如RPA只能对标准的,结构化的交易数据进行操作,它不适用于大数据,但是RPA是可以添加到使用大数据的分析工具集中的工具,大多数分析使用的数据都是结构化和非结构化数据的组合,例如如果要对城市居民中COVID-19的发病率进行建模并绘制热点,则必须将医疗系统的交易数据与大数据端的地图绘制工具结合起来,有责任清理所有这些数据以保证真实的结果,尽管您的数据人员将使用专用工具来清理非结构化大数据,但他们也可以插入RPA来清理作为分析一部分的事务性,结构化数据。

    随着时间的流逝,可以为RPA开发新的业务规则以提高性能

    在某些情况下,企业甚至使用机器学习来训练RPA逻辑,以进行持续的流程改进和更高质量的交易数据,将RPA视为分析中的一个选项,尽管RPA的主要目的是自动化交易数据输入,从而节省了最终用户的时间,但它也可以用作协助预先清理随后在分析中使用的交易数据的工具,在这方面IT可以利用RPA之类的工具,乍一看似乎与分析数据清理流程无关,但可以帮助IT员工和数据科学家节省宝贵的时间,因为这可以减少最终用户的时间。

    与用户交谈时使大数据神秘化的5种方法

    最终用户和IT有不同的词汇。帮助用户了解项目对于帮助他们充分利用大数据至关重要,虽然87%的组织在最近的一份报告中承认数据是一种资产,但只有25%的受访者表示他们准备使用数据,只有37%的受访者认为使用数据可以做出更好的决策,而整整74%的受访者认为完全可以利用数据数据不堪重负,对此的最初反应是,现在有大量数据涌入企业,以至于他们无法跟上。但是,我认为更根本的问题是我们无法在IT内部以及与最终业务用户之间进行清晰的沟通。

    使IT内部以及IT与最终用户之间的通信复杂化的一个障碍

    工程术语往往主导着IT学科。多年来,用户花时间尝试了解默认值的含义,如果您从事金融业,则违约意味着贷款将变坏,实际上如果您在线词典中查找“默认”一词,定义的第一点就是“未能履行职责或法律要求的事情”,只有在默认情况下通读定义5b时,您才能得到IT工程师使用的定义:“在没有用户选择的情况下,程序自动使用的选择。”

    在工程术语中定义IT术语的这种趋势令人困惑,并且使通往生产性大数据的使用路径变得更加困难。以下是五个简化流程的步骤:

    1.向用户解释什么是大数据

    大数据是指在正常公司系统中不会以电子固定记录形式出现的任何信息,例如应付账款,采购,销售,制造等。如果您在谈论照片,图像,图纸,合同,视频或录音的硬拷贝,这是大数据。由于大数据无法通过正常的公司交易系统进行处理,因此需要以其他方式进行处理,大多数用户可以理解这一点,并且许多用户已经理解了,但是重新强调这一点对IT并没有什么害处,因此当IT谈论它时,每个人都知道大数据的含义。

    2.说明大数据处理

    IT部门需要提出处理大数据的方法,但是对于最终用户而言,了解过程中的基本步骤也很重要,用户从经验中知道,当他们与IT一起为诸如会计等系统开发报告和在线交易时,他们首先坐下来设计应用程序,然后由IT对其进行编程,然后每个人都会测试该应用程序,直到它按预期工作,然后将其部署到生产环境中,大数据应用程序开发几乎就是这样,但事实并非如此。

    3.建立数据模型

    当IT与最终用户坐下来定义业务流程的工作方式,以及从系统中获取哪种类型的信息以使流程正常工作时,通常称为需求和业务流程定义,但是在大数据方面,这是一个数据模型,数据模型有两个部分。流程的第一部分是用户在白板或其他设备上描述其业务流程的地方。他们还列出了执行该过程所需的各种数据。例如,如果您需要找到所需的某个零件,则可能需要零件编号信息,访问提供零件的供应商以及零件位置的权限,后来IT可以开发一个基础数据模型,该模型显示各种数据库,计算资源等如何为用户获取此信息,但是用户不需要参与数据模型设计的这一高度技术阶段,用户只需要确认业务流程和信息需求已完成即可。

    4.定义算法

    该算法是最终用户用来查询数据的搜索条件,例如如果最终用户想要找到不受某个类别五级飓风影响的某个零件的所有供应商,则可以将零件供应商的交易数据与大数据天气结合起来,生成的报告指出零件供应商不在受影响的区域中,如果由于某种原因该算法不能完全满足业务需求,那么用户和IT部门可以重新开会,以便找到更好的算法。 

    5.获取数据

    必须清除由数据模型处理过的源生成的数据,以确保数据没有重复,不完整和不准确,以便返回给最终用户的信息具有高质量,数据质量由最终用户在应用程序测试中确认,沟通是关键,大数据作为IT计划的目标应该以经常出现且易于理解的通信为前提,花时间用最终用户的术语向他们解释新的过程,减去技术和工程术语,找到可以用简单的英语表达的替代词,当结合使用这些技术时,这些技术可以加快项目时间表和结果,并在IT和最终用户之间建立信任和团队合作。 

    相关文章

      网友评论

          本文标题:CPDA数据分析师培训:可否使用RPA帮助进行数据清理以进行分析

          本文链接:https://www.haomeiwen.com/subject/fmdznktx.html