美文网首页
大数据入门

大数据入门

作者: javaBoy_hw | 来源:发表于2018-06-09 11:16 被阅读0次

    1 大数据

    Hadoop& Spark& HDFS, rpc

    大数据简介

    大数据本质是一种方法,以非抽样数据为基础进行分析,辅助决策。

    人工智能:
    机器学习:svm,分类和聚合,
    spark ml, dl。
    GAN网络

    大数据常用框架
    仅批处理框架:Apache Hadoop;
    仅流处理框架:Apache Storm、Apache Samza;
    混合框架:Apache Spark、Apache Flink;

    大数据误区

    数据量大与高并发的区别
    数据量:主要是指数据的总量;
    高并发:并发量高,短时将数据量大,但总体数据量不一定大。

    2 Hadoop MapReduce 框架

    大致逻辑:
    先把输入,打乱,每个打乱的块再分层几块,所有的第一块交由处理1的reduce去处理,其他相对应。

    Map阶段、Shuffle(打乱)阶段、Reduce阶段。

    边读写,当达到某个阈值时溢写。

    为了解决溢写时的频繁io,使用本地聚合思路,提高性能。

    单词共现矩阵的计算主要有两种方法:词对法,条纹法。

    3 图数据库

    3.1 图数据库简介

    图数据库,应用图形理论存储实体之间的关系信息的数据库。,擅长于处理节点和边组成的复杂关系网络,例如六度空间理论。

    图数据库主要用来处理:传统CRUD,联机事务处理(OLTP)。图计算:联机分析处理(OLAP),不支持事务。

    3.1.2 图数据库基本概念

    图数据库使用的是传统SQL语句,使用的是Cypher查询语句。

    基本概念:节点、关系、标签、属性

    节点(Node):图中的对象,又称顶点(vertex)。
    关系(Relationship):连接节点。有类型、有方向、带属性,又称为边。
    标签:给节点分类,可以有多个。
    属性:丰富节点和关系。

    3.1.3 图数据库应用场景

    知识图谱、社交网络、欺诈检测、公交系统、股权关系、食品安全。

    3.2 常见图数据库

    Neo4j:使用最多。
    Titan:基本已死
    JanusGraph:Uber在用,发展较快
    OrientDB:多模型的数据库,包括文档型,图数据库

    其他非关系型数据库

    键值对数据库:Redis
    列式数据库:HBase
    文档型数据库:MongoDB
    图数据库:Neo4j

    3.3 Cypher查询语句

    3.3.1 CRUD

    创建节点:
    CREATE(yang:人物{name:"杨绛",born_date:"1911年7月17"}) return yang

    参考文献

    《neo4j权威指南》

    相关文章

      网友评论

          本文标题:大数据入门

          本文链接:https://www.haomeiwen.com/subject/zdkteftx.html