一、大数据的概念
大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。引用维基百科对“大数据”的解读是:“大数据”(Big Data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
二、大数据的特征
主要为4V特征:规模性(Volume)、高速性(Velocity,)、多样性(Variety)、价值性(Value)。
规模性:不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。
高速性:区别于传统数据的显著特征,大数据对处理数据的响应速度有更严格的要求。实时分析、几乎无延迟,这一特征也成为了众家争夺之地。
多样性:主要体现在数据来源多、数据类型多和数据之间关联性强这三方面。数据类型不在仅仅局限于传统的结构化数据,还包括图片、视频、HTML文档等等非结构化和半结构化数据。
价值性:正由于数据的多样性,决定了数据的价值比传统数据能发挥更大的价值。
三、大数据测试概要设计
不同的大数据平台开发使得大数据测试变得复杂,但简而言之,所有大数据平台开发都是一个ETL过程(即Extract提取, Transform转换, Load加载)。拆分为4个步骤,就是:数据迁移、数据获取、数据整合和数据可视化输出。
结合大数据的4V特征和ETL过程,可以将大数据测试分为以下阶段:
1. 数据提取阶段测试
该阶段要求来自不同数据源的数据都能被正确提取、加载进系统,测试重点是关注开发过程中数据提取后的完整性和相关性保持度。
2. 数据转换阶段测试
该阶段主要是对加载进系统的数据进行清洗,主要步骤包括聚合(map)和隔离(reduce)。测试重点是转换数据时的正确性,及数据的完整性和数据之间的相关性。
3. 数据输出阶段测试
该阶段生成数据文件,并把文件移动到企业数据仓库或其他需求的系统中。测试重点是检测数据的完整性、转换规则的正确性以及数据的成功使用。
四、大数据测试与传统数据测试的区别与联系
1. 区别
传统数据测试是在静止或缓速的数据流上进行的,而大数据测试是基于连续的数据流进行测试,测试更应该关注数据的处理而不是产品的单个功能。因此大数据测试需要在真实数据下验证数据处理的每个部分。
区别与传统数据的测试中的功能测试、负载测试,性能测试,可用性测试,安全测试,比较测试,兼容性测试、易用性测试等等,在大数据背景下,我们必须考虑数据的完整性、数据的价值、数据的相关性,以及隐藏再数据背后的用户情绪和行为,大数据测试可以分为功能测试、架构测试、性能测试、易用性测试等等。
表1 大数据测试与传统数据测试的区别
2. 联系
从测试设计方面来看,对于大数据平台/系统的测试,同传统数据测试依然有相同点。
功能测试方面:依然可以沿用传统数据测试的设计方法,如:等价类划分测试法、边界值测试法、错误推测法等等;
性能测试方面:大数据测试依然需要关注吞吐量、磁盘I/O、内存/CPU消耗等等指标;
易用性测试方面:传统数据的易用性测试方法和UI自动化测试工具(如selenium ide),依然可以用于大数据测试。
五、大数据测试的挑战
大数据测试最大的挑战,就是存储在关系数据库中的大量结构化、非结构化和半结构化数据。这些数据的不同排列组合使测试用例成几何指数增长,传统手工测试对测试点的覆盖难以全面。且由于大数据的自动化测试工具还不成熟,进行自动化测试时往往使用开发工具。而这些开发工具要求测试人员具有专业的技能和培训,从而使得测试人员进行自动化测试更是面临更大的难题。
网友评论