数据科学定义
数据科学是一门通过系统性地研究来获取与数据相关的知识体系的科学。
1)研究数据本身,研究数据的各种类型、结构、状态、属性及变化形式和变化规律
2)通过对数据的研究,为自然科学和社会科学的研究提供一种新的方法——称为科学研究的数据方法,其目的在于揭示自然界和人类行为的现象和规律
数据
数据是指以定性或定量的方式来描述事物的符号记录,是可定义为意义的实体,它涉及事物的存在形式。数据并不局限于数字,文本、音频、图像、视频都可以是数据。
元数据——数据的数据。
以天气为例,数据就是当天的风速、风向、温度等信息;信息则是由这些数据制成的气象云图;知识则是从中获取到的如高气压分布情况等;元数据则是指这些天气数据获取时所用的雷达类型、传感器类型等。
数据是原始的和零散的,通过对数据的过滤和组织可以得出信息,再将信息进行整合与呈现,就能获得知识,知识最后经由领悟与归纳形成智慧。这是一个不断抽象、不断归纳、不断升华的过程。
大数据的4V特性
1)数量巨大-volumn
2)类型繁多-variety
3)速度快、时效要求高-velocity
4)价值密度低、提纯难-value/veracity
通常来说,大数据包括网络日志、音频、视频、图片、地理位置信息等各种结构化、半结构化和非结构化的数据。结构化的数据是存储在数据库里的,可以用二维表结构来表达实现的数据;非结构化的数据包括所有格式的办公文档、文本、图片、XML、HTML、图像、音频和视频信息等。而半结构化的数据就是介于完全结构化数据(如关系型数据库、面向对象数据中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
大数据之所以具有如此强的多样性,其根源就在于随着互联网和物联网的发展,各种设备通过网络连成了一个整体。
综上,大数据就是在计算机技术的快速发展推动下,随着互联网、物联网的推广和普及,所涌现的高速产生、海量、多种类、多来源、多模态,需要运用先进的处理、分析和呈现技术对其进行“提纯”才能产生价值的结构化、半结构化和非结构化数据。
数据挖掘
数据挖掘就是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要是基于人工智能、机器学习、模式识别、统计学、数据库、可视化等技术,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,从而做出正确的选择。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
网友评论