提要
本白皮书阐述了微构科技VigorData一站式企业大数据平台的定位与应用场景、系统架构、产品特性。
VigorData满足企业从数据采集、存储、计算、分析挖掘到可视化展示的一站式数据处理需求,并融合前沿AI科技机器深度学习自我进化,直至与企业自身状况深度契合,帮助企业借力大数据优势深化自身业务价值体系。
01产品概述
1.1. 产品目标
一站式企业大数据平台
VigorData提供了端到端一站式数据处理服务,为企业提供从采集、治理、存储、管理、计算、分析、挖掘、可视化展示的全程处理能力,并提供相对应的大数据咨询、开发、实施、培训、运维等全链条业务。
中间件工具平台
VigorData与具体业务实现了松耦合,是一个通用性的中间件大数据分析挖掘平台。通过这个产品所具备的高性能实时和离线计算能力、丰富的统计、分析、挖掘模型,为行业全流程、全周期的生产运营活动提供商业智能支持。
面向多角色的低技术门槛平台
VigorData通过技术封装降低了使用门槛,各层次的人员不需要太多的专业技能就可以使用。使用时多种角色共同协作,实现大数据的应用,包括开发人员、分析人员、运维人员、管理人员等。
1.2. 产品定位
VigorData从产品定位上,主要为行业大数据提供采集、处理、存储、计算、可视化能力,是一个一站式企业大数据平台。因此,VigorData的客户目标定位为具备大数据场景的行业大客户。
1.3. 应用场景
1.3.1 房地产行业
大型房地产企业,手中掌握着多年来积累的数以百万计、千万计的购房者信息,在这个数据起决策主导作用的时代,只有对数据进行精准分析,才能与需求智能匹配,进而发挥数据的最大价值,去积极推动个人和企业决策方式的转变。
产品价值:
系统化的数据治理体系,带来更好的数据质量,拉通传统“烟囱式”IT建设带来的信息孤岛。
全方位洞察受众,转变服务理念,构建用户全景视图,通过对受众的多维度分析,实现企业对特征用户群需求的深度挖掘,促进房地产企业在拿地、户型设计、产品定价、风险控制、获客等方面更加精准,产品贴合受众需求,最大化释放用户价值,提高成单率。
VigorData房地产大数据应用场景:
辅助拿地;
楼盘定价;
楼盘精准营销;
楼盘智能推荐;
房源估价;
社交租房。
更多详情请点此阅读:
大数据时代下房地产市场变革,房产大数据信息化应用简析
1.3.2能源行业
电力行业数据在可获取的颗粒程度,数据获取的及时性、完整性、一致性等方面的表现不尽如人意,数据源的唯一性、及时性和准确性急需提升,部分数据尚需手动输入,采集效率和准确度还有所欠缺,行业中企业缺乏完整的数据管控策略、组织以及管控流程。
多源异构数据缺乏统一管理;
当前数据存储和处理技术遇到瓶颈,缺乏实时计算能力;
未实现跨业务的企业级大数据应用;
产品价值:
VigorData支持PB级数据分布式存储,离线、实时分析,平台使用门槛低,封装多种统计分析和数据挖掘模型, 通过对电力市场个性化需求和企业自身良性发展的挖掘和满足,重塑中国电力工业核心价值,驱动电力企业从“以人为本”的高度重新审视自己的核心价值,由“以电力生产为中心”向“以客户为中心”转变,并将其最终落脚在“如何更好地服务于全社会”这一根本任务上。
应用场景:
用电行为分析;
经营决策系统;
智能调度;
设备异常实时监控;
线损分析。
更多详情请点此阅读:
未来能源互联网技术革命,能源产业大数据应用解析
1.3.2 互联网行业
互联网行业大数据“4V+1S”特性:数据规模大、数据价值稀疏珍贵、数据的多样性、数据的实时性和数据的社会性成就了移动互联网大数据的超凡影响力。
网络和应用的可用性,信息安全、隐私保护,以及对海量数据的存储、管理和挖掘分析等给互联网企业带来巨大挑战。
产品价值:
数据产品化、数据可视化传播;
个性化推荐、客户生命周期管理;
数据挖掘提升活动效果;
自动提取和分析工具;
产品体验分析&口碑监测;
用户唯一ID+用户画像+用户兴趣+用户行为;
数据接入系统&元数据管理系统&计算任务调度系统;
应用场景:
针对互联网行业大数据分析的特点,通过VigorData大数据平台可实现对海量用户点击数据、用户行为数据、用户反馈数据、用户上网数据等的存储和管理,保证互联网海量状态数据的实时性和高效运营。
用户行为属性分析;
用户画像;
精准营销;
用户流失分析;
流量分析。
1.3.3 金融行业
金融业在支付、存贷、汇兑、理财、股票期货等领域积累了海量数据,其数据具备四大特征:
(1)数据量大;
(2)数据质量高;
(3)数据价值大;
(4)数据可定位性好。
目前金融机构并没有充分利用大数据分析产生价值,原因是多方面的,除了体制的沉重镣铐,还缺乏一套严格的制度去量化各类数据的价值,缺乏大数据深度分析的能力和大数据创新应用的理念,缺乏收集建立有战略辅助价值的金融行业外大数据的理念。
因此,大数据理念、方法和创新商业模式的引入,有望颠覆传统金融业,产生巨大的价值。
产品价值:
多源异构数据的融合,为未来更准确的数据分析建立基础。
图形化的数据迁移方案,更强大,更易用,效率更高。
系统化的数据治理体系,带来更好的数据质量,拉通传统“烟囱式”IT建设带来的信息孤岛。
基于融合治理后的数据,依托VigorData大数据平台提供的分析计算能力,根据客户的业务需求,更好的提供贴近客户业务需求的分析挖掘服务。
深入治理后的数据,建立用户全景视图,更全面掌握用户情况,适时预测用户行为,发现并预警风险、提升关联交易,增加营收。
VigorData金融大数据应用场景:
用卡欺诈行为识别;
交易风险预判;
客户画像;
实时服务;
用户信用体系。
更多详情请点此阅读:
DT时代商业革命,大数据金融行业应用发展分析
02产品功能介绍
2.1. 功能架构
VigorData平台由Intergration(采集、清洗、加载)、Platform(存储、计算、服务)、DeepMiner (深度学习)、Self Analysis Service(自助分析工具) 四大部分组成。
2.2. 功能描述
2.2.1安装部署工具
基于Docker封装平台镜像,利用流程向导模式,实现拷贝式部署。通过这种模式,也可以实现更高效、更迅速的迁移和扩展。真正做到向导式安装, 无人值守式安装。
2.2.2运营管理平台
2.2.2.1管理子系统
管理子系统是整个系统信息的汇聚点,通过管理子系统获取的信息可以知道系统的总体运行情况,并且通过管理子系统的信息呈现,用户可以清晰地知道当前系统运行的现状及变化趋势,从而把握系统的稳定性及健康状况。管理子系统包括集群管控、数据管理、任务管理、作业管理、数据服务、系统管理六个功能模块。
2.2.2.2服务配置工具
通过界面配置式开发,实现数据的逻辑转换与计算,大大降低了平台实施和使用的技术门槛。大部分二次开发不再需要专业的开发人员,业务人员就可以实现对数据计算的定义、脚本实现并通过定义规则驱动数据计算。
2.2.2.3 调度子系统
通过调度子系统对平台内的各类任务(ETL任务,实时计算任务,离线计算任务、内存计算任务、数据服务任务)进行统一的调度和监控管理。
2.2.2.4 数据服务子系统
数据服务子系统对外提供各种数据服务,开放多种数据接口,外部系统/用户可通过服务认证、数据API等方式按权限访问相应的数据。
2.2.3采集平台
Vigor Data Intergration采用元数据驱动的方式提供强大的数据抽取、转换和加载能力。适配多种数据源(DB/文件/log/数据流),适配多种数据抽取方式(离线/实时),提供了直观的图形界面设计器,大大缩短数据预处理的开发周期,并且容易维护。
设计界面友好,提供了工作流设计模式,能满足各种场景的实现。
2.2.4 管理分析平台
Vigor Data Platform是一个跟具体行业业务无关的、通用性的基于大数据的管理分析工具化产品,通过这个产品所具备的高性能实时和离线计算能力、丰富的统计、分析、挖掘模型,为行业全流程、全周期的生产运营活动提供商业智能支持。
2.2.4.1分布式计算子系统
以Hortonwoks HDP为底层大数据平台,使用Ambari统一集成监控管理各种计算组件,包括HDFS、Hive、Spark、Hbase、Strom、Kafka等。全方位支持OLTP和OLAP服务,让基于传统SQL的应用可以无缝迁移到大数据平台。统一的调度、适配和管控离线计算任务、流式计算任务、内存计算任务。
2.2.4.2 函数模型库
将常用统计、分析、挖掘的模型进行插件式封装,用户实现统计实例无需再进行底层的编程,只需要按照计算模式的参数输入约定,即可完成实例的开发定义;不常用的计算模型,按需实现插件式开发,开发后部署到计算模型库中,逐步丰富计算模型库。
2.2.5 自助分析工具
Vigor Data Self Analysis Service支持灵活的业务组合分析和任意的时间窗口分析;无缝整合数据运营中需要的全部核心组件,提供一致的用户体验和极低的维护成本;结合深度分析算法,帮助用户洞察无法直接观测到的数据背后的关联、趋势和逻辑。
2.2.6 深度学习
Vigor DeepMiner基于VigorData大数据平台之上具有完备的数据准备、数据处理、算法管控、模型管控、模型管理和结果展现功能,集成TensorFlow、Caffe等深度学习框架。通过建立各种不同类型的业务模型,帮助企业梳理海量的业务数据提供偏好预测、风险评估、交易预测等结果。
03产品技术架构与特性
3.1. 产品整体技术架构
3.2. 组件介绍
组件
说明
Vigor
OLAP
为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准SQL查询及多维分析功能,提供亚秒级的交互式分析能力。直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型。
Vigor
OLTP
提供可以在Hadoop大数据环境中进行事务操作的解决方案;支持完整的ANSI SQL标准;提供完善的企业大数据事务解决方案,完美解决了数据弱一致性的问题。
Hive
建立在 Hadoop 基础上的开源的数据仓库,提供类似 SQL 的 Hive QL 语言操作结构 化数据存储服务和基本的数据分析服务。
Map
Reduce
提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。
Spark
基于内存进行计算的分布式计算框架。
Kafka
一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、 低延迟、高可靠的消息分发服务。
YARN
资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。
HDFS
Hadoop 分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访 问,适合大规模数据集方面的应用。
HBase
提供海量数据存储功能,是一种构建在 HDFS 之上的分布式、面向列的存储系统。
R
R分析作为大数据平台的组成部分,以HDFS Federation和YARN为核心的计算平台,与以R为核心的分析平台,通过中间连接器,融合为RHadoop计算分析平台,以使R用户可以进行海量数据分析。
Manager
作为运维系统,为VigorData提供高可靠、安全、容错、易用的集群管理能 力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务 管理、健康检查、问题定位、升级和补丁等。
Flume
一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写入各种数据接受 方(可定制)的能力。
Sqoop
是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Storm
一个分布式的、容错的实时计算系统,
Ambari
是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
Nutch
是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
kettle
用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据,它是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。
Docker
是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
3.3. 产品特性
面向大数据的OLTP引擎方案
率先集成OLTP事务引擎。其提供可以在Hadoop大数据环境中进行事务操作的解决方案;支持完整的ANSI SQL标准;提供完善的企业大数据事务解决方案,完美解决了数据弱一致性的问题。
面向大数据的OLAP引擎方案
集成OLAP多维分析引擎, 为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准SQL查询及多维分析功能,提供亚秒级的交互式分析能力。直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型。
Docker化的快速部署模式
基于Docker封装平台镜像,利用流程向导模式,实现拷贝式部署。通过这种模式,也可以实现更高效、更迅速的迁移和扩展。真正做到向导式安装, 无人值守式安装。
元数据驱动的平台架构
平台采用分布式架构,弹性管控集群资源。 平台运行以元数据位基础,各通过数据进行交互,松耦合。
全域的系统监控与管理
实时掌握平台运行状态,负载情况,可动态管理集群。 实时查看平台运行的业务,对业务进行调度,优先级配置,多维度的业务报表。
丰富的统计分析及机器学习支持
支持丰富的统计分析模型,支持通过R语言对平台数据的检索与计算。在机器学习模型方面,支持Spark Mllib非深度学习及Caffe on Spark深度学习。
多来源多格式适配的数据采集
ETL服务集群,支持从文件,DB、数据流中导入数据。 灵活的数据转换配置和任务配置。
统一的分布式存储
以Hbase做为数据存储的统一格式,MapReduce、Hive通过接口使用Hbase数据。 做到一份存储,多处使用。
高效的服务配置工具
通过配置完成计算任务的配置,降低平台实施和使用的技术门槛。 通过统一的配置模板实现对数据计算的定义、脚本实现并通过定义规则驱动数据计算。配置支持B/S与C/S模式。
可视化自助分析工具及个性化定制服务
通过可视化操作,用户可实现自助数据分析,生成多终端的可视化报表和分析报告。通过定制服务,可实现用户个性化主题的可视化展现。
04产品价值
从企业IT建设角度出发:
降低了企业进行大数据处理的技术门槛,降低了人工成本。
VigorData的函数库集成了多种统计分析挖掘模型,提高了大数据处理效率,减少企业二次开发投入。
从应用角度出发:
整合企业的数据资源,进行深度分析,为企业决策服务。
与传统数据仓库系统相比,计算性能优异,平台规模可随着企业的发展动态扩展。
提供了丰富的统计、分析、挖掘模型, 满足企业原有BI分析需求的同时,良好的可扩展性可满足企业不断增加的数据分析需求。
网友评论