数据交换系统概况
最近这几年,随着大数据的兴起,各行各业都希望通过大数据平台,将自己的积累的数据创造出价值。各个软件企业也建设了许多大数据平台工具,如大数据采集工具、大数据治理工具、大数据开放工具,如雨后春笋但又千篇一律,大多数都是基于开源组件二次开发而成。大数据采集用的到如datax、spooq等,大数据治理用到streamSet、kettle,数据开发用到各种API网关或数据库直接发布为Restful接口。数据分析及挖掘就是机器学习和各种算法,至于深度学习和神经网络那就是更高端的算法,我们只讨论一些工具,这里如TensorFlow。
为什么数据交换概念提的越来越多?
首先,以前的业务系统都是垂直系统,通过建设一套系统,分配不同的账号,可以将所需的数据汇聚起来;如信用中国就是有对应的上报系统;随着各垂直领域的数据的汇聚,为避免重复的系统建设和获取相对全面的数据需求,通过数据交换是解决这些问题成本较低的方式。
其次,就是各企业的业务系统都相对独立,系统形态较为复杂,即便是同一个企业或政务部门的系统分属不同的开发商开发在不同时期开发,系统的系统架构和数据库类型、结构都不相同,由于没有建立标准化的指标体系。
最后,政务部门和企业的数据应用意识增强了。信息化在原有建设基础上取得了一定的成果,无论是基础网络、业务系统、门户网站都有了一定的基础。领导都意识到大数据对自身发展会产生巨大的促进作用,但在数据积累后没相对应数据处理工具和数据使用渠道。
数据交换技术
1 大数据接入
已有数据接入、实时数据接入、文件数据接入、消息记录数据接入、文字数据接入、图片数据接入、视屏数据接入
对应的大数据接入技术 :
Kafka、ActiveMQ、ZeroMQ、Flume、Sqoop、Socket(Mina、Netty)、ftp/sftp
2 大数据存储
结构化数据存储、半结构化数据存储、非结构化数据存储
对应的大数据存储技术
Hdfs、Hbase、Hive、S3、Kudu、MongoDB、Neo4J 、Redis、Alluxio(Tachyon)、Lucene、Solr、ElasticSearch
3 大数据分析与挖掘
离线分析、准实时分析、实时分析、图片识别、语音识别、机器学习
对应大数据分析与挖掘技术
MapReduce、Hive、Pig、Spark、Flink、Impala、Kylin、Tez、Akka、Storm、S4、Mahout、MLlib
数据的分析离不开各种数据库客户端工具,例如P/L SQL, 查询分析器,Navicat, shell等,客户端工具繁多,安装繁琐,
使用基于Web的TreeSoft数据库管理系统,可以同时连接MySQL,Oracle,DB2,PostgreSQL, SQL Server, MongoDB, Hive, SAP HANA 十分方便。使用基于Web的工具有个好处是:一次布署,到处使用,省时省力。
4 大数据共享交换
大数据共享交换主要包括的步骤包括数据接入、数据清洗、转换、脱敏、脱密、数据资产管理、数据导出。数据接入后,通常是存入数据库中,以便于进行分析、清洗、转换、脱敏等处理,而这些操作都离不开数据可视化客户端工具。海量大数据需分批次,分任务,分时段进行处理,TreeSoft数据库管理系统提供了数据定时任务管理,数据交换同步任务管理,任务统一管理,执行进度展示,处理日志查看等,十分强大,是大数据处理的好工具。
对应的大数据共享交换技术
Kafka、ActiveMQ、ZeroMQ、Dubbo、Socket(Mina、Netty)、ftp/sftp、RestFul、Web Service
5 大数据展现
图化展示(散点图、折线图、柱状图、地图、饼图、雷达图、K线图、箱线图、热力图、关系图、矩形树图、平行坐标、桑基图、漏斗图、仪表盘),文字展示;
大数据展现技术
Echarts、Tableau,TreeSoft数据库管理系统将SQL查询结果直接以图表展示,快速展现分析结果。
网友评论