美文网首页数据科学家
大数据学习day_1

大数据学习day_1

作者: Sakura_P | 来源:发表于2017-07-17 20:08 被阅读73次

#思考问题

##什么是结构化数据,什么是非结构化数据?

1. 结构化数据即行数据,存储在传统的关系型数据库里,一般是以字段的形式,按照一定的二维表格逻辑结构保存,内容遵循固定的格式,比较容易查询。

2. 非结构化数据是那些不能轻易分类并存储在固定大小的结构中的数据,例如图片,视频,网页,PDF,各类文档等以文件的形式存储。

3. 半结构化数据是那些介于完全结构化数据和完全无结构的数据之间的数据,特点是自描述,数据的结构和内容混在一起,没有明显的区分。

##大数据是什么?有什么特点?

1. 大数据(big data)指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流畅优化能力的海量、高增长率和多样化的信息资产。

2. 大数据具有4个基本特征

-- 数据体量巨大    Volume

-- 数据类型多样    Variety

-- 处理速度快    Velocity

-- 价值密度低    Value

##数据仓库是什么?

1. 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用与支持管理员决策。

-- 数据仓库是一个过程而不是一个项目;

-- 数据仓库是一个环境而不是一件产品;

-- 数据仓库提供用户用于决策支持的当前和历史数据

##CAP理论是什么?

1. CAP定理指出对于一个分布式计算系统来说,不可能同时满足以下三点:

-- 一致性,指所有节点访问同一份最新的数据副本

-- 可用性,指每次请求都能获取到非错的响应

-- 分区容错性,分区相当于对通信的时限要求

2. CAP权衡

-- CA without P:如果不要求P(不允许分区),则C(强一致性)和A(可用性)是可以保证的。但其实分区不是你想不想的问题,而是始终会存在,因此CA的系统更多的是允许分区后各子系统依然保持CA。

-- CP without A:如果不要求A(可用),相当于每个请求都需要在Server之间强一致,而P(分区)会导致同步时间无限延长,如此CP也是可以保证的。很多传统的数据库分布式事务都属于这种模式。

-- AP wihtout C:要高可用并允许分区,则需放弃一致性。一旦分区发生,节点之间可能会失去联系,为了高可用,每个节点只能用本地数据提供服务,而这样会导致全局数据的不一致性。现在众多的NoSQL都属于此类。

相关文章

  • 01:列表list

    python学习day_1: 四种组合数据类型(list:列表 tuple:元组 set:集合 dict...

  • 大数据学习day_1

    #思考问题 ##什么是结构化数据,什么是非结构化数据? 1. 结构化数据即行数据,存储在传统的关系型数据库里,一般...

  • ML坚持之路_Day1

    Day_1 步骤一 —— 导入必需库 在进行数据分析,需要两个必须常用库 —— pandas 、 Numpy 步骤...

  • day_1

    在terminal里面执行Python代码

  • 20190108

    看看这本书 -《Android游戏编程之从零开始》 Day_1 2019/01/08 开发之前需要熟悉 · Vie...

  • 1、简单介绍、引用

    selenium day_1 隐性需求: 用户习惯针对不同的用户群体,使用习惯 行业规范电商,保险,医疗,金融 竞...

  • day_1:enumerate

    自己用到了enumerate,是从这里学到的一篇微信文章。 里面有一句“当你发现你在操作集合的下标时,你很有可能在...

  • Jquery day_1

    1.1 JQuery 入口函数 1.1.1 jQuery的入口函数 1.1.2 jQuery中的顶级对象$ 1....

  • 深度学习图像视频标注工具及数据集汇总

    “大数据时代”,数据为王!无论是数据挖掘还是目前大热的深度学习领域都离不开“大数据”。 对于监督学习算法而言,数据...

  • day_1 初步学习webpack打包工具

    一直以来就只会单纯的使用vue的脚手架,很少话时间去研究下关于vue脚手架中的webpack是如何配置,如何实现最...

网友评论

    本文标题:大数据学习day_1

    本文链接:https://www.haomeiwen.com/subject/jmsqkxtx.html