OpenRefine提供数据集治理功能,它很擅长数据的探索、清理、转换等,主要功能介绍如下。
-
转换数据
OpenRefine是开源的数据质量检查工具,利用这个工具,快速筛选数据、清理数据、排重、分析时间维度上的分布与趋势等。 -
排重
待处理的数据通常是有瑕疵的,总是数据重复行,通过排重实现数据重复行检查。
先假设7天的房产交易中,出现同样的地址就意味着有重复的行。这么短的时间周期内,同一套房子不太可能被卖两回。所以,在重复的数据上Blank down:而将重复出现的置为空白。 -
使用OpenRefine探索数据
理解数据是建立成功模型的前提。对数据做不到了如指掌,你建立的模型就可能在纸面上很美,却在生产环境中大错特错。探索数据集是检测数据是否有问题的一个好办法。
有了Facets,用OpenRefine探索数据就简单了。一个OpenRefine Facet可以理解成一个过滤器:它让你快速地选择某些行,或直接探索数据。每一列都可以创建一个facet—只消单击列旁边的下拉箭头,菜单中选Facet组。
(1). OpenRefine中有四种基本的facet:文本、数字、时间线以及分布图。
文本facet可以快速地对数据集中文本列的分布有一个感觉。比如,可以找到数据集中,2008年5月15日到5月21日之间销售额最高的是哪个城市。
(2). 可以自行定制facet,或者使用OpenRefine工具库中复杂一些的facet,比如词或文本的长度。 -
使用正则表达式与GREL清理数据
清理并准备使用数据时,可能需要从文本字段中提取一些信息。有些时候,只需要用些分隔符将文本字段拆开。但当数据符合一些模式,并不是简单地拆分文本就能做到时,就需要求助于正则表达式了。
以在OpenRefine中使用它转换数据。现在要将city_state_zip拆成三列:city、state和zip。单击列名旁边的向下按钮,出来的菜单中,根据情况选择Edit column或Add column。会出现一个数据清理正则表达式配置窗口,进行正则表达式配置,实现数据提取、转换。
访问界面如下:
image.png
网友评论