美文网首页
数据平台技术概览

数据平台技术概览

作者: TiscoLevine | 来源:发表于2017-07-21 17:03 被阅读0次

目前市面上稍微体量大一些的IT厂都会自建数据平台,将数据从上报,收集,存储,清洗,应用这个链路的东西都自己own起来。
现在一个公司搭建自有数据平台,大部分的框架结构都相对稳定。
这里笔者顺着数据流程将各个地方用到的技术都做一个汇总。

上报

在移动互联网时代,更多的用户日志都是从移动端上报的,移动端根据页面的不同,有native页面和H5页面,所以一般公司针对于这两种页面,分别有一套日志上报体系,然后在离线的时候把这两套上报日志合并起来。
具体的日志这里包括三个方面:前端app、pc日志上报nginx日志后端代码中服务日志,这几块常规的做法就是公司中间件团队封装一套SDK用于收集这些日志,期望达到最少量侵入代码的埋点方式。

收集,存储

数据采集的话根据常用的分为MySQL和日志,其中MySQL以binlog收集为主,传输和存储这块都会采用Kafka的方案,具体到业务的话可能会采用RabbitMQ的方案。

清洗

清洗这一块根据处理方式可以分为实时处理和离线处理

实时处理

多采用Storm,或者SparkStreaming,偶尔会有采用Flink,但根据市面上的大厂,更多采用的是前两者。

离线处理

多采用Hive,随着Spark的兴起,很多公司开始尝试在ETL流程中使用Spark-SQL替代Hive的任务

应用

应用这块根据服务人群不同可以分为,查询分析型挖掘学习型

查询分析型

服务对象更多是公司高级主管或者一些运营,这里孵化最多的就是报表系统,其中采用Hive,Presto,Druid,Kylin等工具,多为开源系统。
基于查询分析可能会出现实时大盘统计等实时需求。

挖掘学习型

服务对象是用户,目的是通过一些机器学习算法达到智能化推荐,运营的目的,这里采用比较多的是Spark Mllib和基于Python的TenseFlow这种机器学习库。
算法迭代稳定上线,一般会孵化出AB系统

相关文章

  • 数据平台技术概览

    目前市面上稍微体量大一些的IT厂都会自建数据平台,将数据从上报,收集,存储,清洗,应用这个链路的东西都自己own起...

  • NoSQL 与大数据

    概览一下大数据项目中可以使用的数据存储技术,聚焦于Couchbase 和 ElasticSearch,展示如何使用...

  • [概览]开源大数据技术漫谈

    开源大数据技术漫谈http://sanwen8.cn/p/150ZTVb.html简单把上述大数据技术做一个总结,...

  • 大数据全系技术概览

    什么是大数据? 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是...

  • 1-大数据技术概览

    大数据的4V特征数据规模巨大(Volume)、数据类型多样(Variety)、生成和处理速度极快(Velocity...

  • 20171207 虚拟化

    虚拟化技术概览KVM简介KVM的管理操作 一、虚拟化技术概览 (一)虚拟化技术类型: 主机虚拟化:xen, kvm...

  • 数据平台技术架构

    1、系统架构图如下: 2、系统各层介绍 以上采用五层的逻辑架构,第一层客户层,第二层前端优化层,第三层应用层,第四...

  • MySQL 5.7参考手册_11.1 数据类型概览

    11.1 数据类型概览 11.1.1 数字类型概览11.1.2 日期和时间类型概览11.1.3 字符串类型概览 1...

  • 益华大数据平台介绍

    益华大数据平台是中国书业的EDI电子数据交换中心。 益华大数据平台通过益华桥技术和益华PUBLISHEDI技术,与...

  • Qt 6的技术概览

    Qt 6的技术概览 本文转载自Qt 6的技术概览[https://www.qt.io/cn/blog/2019/0...

网友评论

      本文标题:数据平台技术概览

      本文链接:https://www.haomeiwen.com/subject/sjpekxtx.html