1 大数据
Hadoop& Spark& HDFS, rpc
大数据简介
大数据本质是一种方法,以非抽样数据为基础进行分析,辅助决策。
人工智能:
机器学习:svm,分类和聚合,
spark ml, dl。
GAN网络
大数据常用框架
仅批处理框架:Apache Hadoop;
仅流处理框架:Apache Storm、Apache Samza;
混合框架:Apache Spark、Apache Flink;
大数据误区
数据量大与高并发的区别
数据量:主要是指数据的总量;
高并发:并发量高,短时将数据量大,但总体数据量不一定大。
2 Hadoop MapReduce 框架
大致逻辑:
先把输入,打乱,每个打乱的块再分层几块,所有的第一块交由处理1的reduce去处理,其他相对应。
Map阶段、Shuffle(打乱)阶段、Reduce阶段。
边读写,当达到某个阈值时溢写。
为了解决溢写时的频繁io,使用本地聚合思路,提高性能。
单词共现矩阵的计算主要有两种方法:词对法,条纹法。
3 图数据库
3.1 图数据库简介
图数据库,应用图形理论存储实体之间的关系信息的数据库。,擅长于处理节点和边组成的复杂关系网络,例如六度空间理论。
图数据库主要用来处理:传统CRUD,联机事务处理(OLTP)。图计算:联机分析处理(OLAP),不支持事务。
3.1.2 图数据库基本概念
图数据库使用的是传统SQL语句,使用的是Cypher查询语句。
基本概念:节点、关系、标签、属性
节点(Node):图中的对象,又称顶点(vertex)。
关系(Relationship):连接节点。有类型、有方向、带属性,又称为边。
标签:给节点分类,可以有多个。
属性:丰富节点和关系。
3.1.3 图数据库应用场景
知识图谱、社交网络、欺诈检测、公交系统、股权关系、食品安全。
3.2 常见图数据库
Neo4j:使用最多。
Titan:基本已死
JanusGraph:Uber在用,发展较快
OrientDB:多模型的数据库,包括文档型,图数据库
其他非关系型数据库
键值对数据库:Redis
列式数据库:HBase
文档型数据库:MongoDB
图数据库:Neo4j
3.3 Cypher查询语句
3.3.1 CRUD
创建节点:
CREATE(yang:人物{name:"杨绛",born_date:"1911年7月17"}) return yang
参考文献
《neo4j权威指南》
网友评论