故事是这样的,2018 中国数据库技术大会(DTCC)上跟一位专家聊起来当前数据库的现状和未来。他的观点是传统数据库厂商和产品依然强势,全球千亿的企业级市场并不会在当下发生大的格局变化。而我却表达了当前国产数据库能力愈发精进、企业级数据库市场并非铁板一块、分布式OLTP数据库能力将会划定产业新龙头的想法。
结果自然是各说各话,无法达成统一的革命意识形态。
伟大领袖毛主席在《反对“本本主义”》中说过,“你对于某个问题没有调查,就停止你对于某个问题的发言权。”
所以在这里,我希望借助实际的数据调研和分析结果来梳理下当前数据库业的实际现状。反对下数据库的“本本主义”。
一、DTCC四年演讲主题趋势拆解
DTCC每年都会演讲的形式汇聚当前国内外数据库领域的前言技术和产业信息,所以调查第一步选择了梳理DTCC演讲主题的分布情况。
为了突出重点,我只选取了四个主题作为对比维度:
(1)传统关系型数据库:即演讲主题为Oracle、DB2、SQL Server等的优化、实践、特性等内容
(2)国产数据库:即演讲主题为商业输出或自身实践自主研发底层数据库等内容
(3)分布式数据库:即演讲主题为分布式NoSQL、分布式SQL以及基于传统数据库的分布式改造实践等内容
(4)分布式事务数据库:即演讲主题为突出产品分布式事务数据库能力等内容
我将DTCC 2015、2016、2017、2018四年中,涉及到上述四个相关主题的演讲进行了整理和累加,得出上述四个主题在DTCC四年中的变化趋势,虽不像数学公式般严谨,但是也能大概率说明一些相关的趋势变化。
整理结果如下所示,可以看出国产数据库、分布式数据库、分布式事务数据库主题的演讲数量呈明显上升趋势,而传统关系型数据库主题的演讲数量逐渐趋近于零。
DTCC四年趋势整理二、DTCC四年演讲关键词处理分析
因为我本人以前是做门户NLP出身,在新闻挖掘过程中,对权重突出的文章标题做关键词抽取、主题定位是一项入门基础技能,所以我这次将那套方法又拿来套用了一遍。
我和同事利用爬虫脚本抓取了DTCC 2015、2016、2017、2018年四年所有的演讲名称,然后通过中文分词算法将每年的演讲题目进行分词处理,并统计词频,形成(关键词,频率)二元组,之后利用软件生成文字云统计结果。
最终结果如下所示。
(1)2015年DTCC关键词文字云
2015 DTCC 关键词总结2015 DTCC关键词文字云的主观感受即“存储”、“引擎”、“Oracle”、“PostgreSQL”、“NoSQL”,个人感觉依然是数据库的唠家常话题。
(2)2016年DTCC关键词文字云
2016 DTCC关键词总结2016 DTCC关键词文字云的主观感受即“计算系统”、“存储”、“推荐”、“Oracle”、“性能”、“演进”、“分布式”,大数据的发展促使数据库界也开始为其配套相关设施,故有关大数据业务以及IT信息的主题讨论已经越来越多。
(3)2017年DTCC关键词文字云
2017 DTCC关键词总结2017 DTCC关键词文字云的主观感受即“MySQL”、“SQL”、“Spark”、“Oracle”、“区块”、“Hadoop”、“分布式”,大数据已经进入快速落地阶段,hadoop和spark新鲜上榜,互联网公司因为没有历史包袱所以MySQL开始成为主要讨论对象,2017年火爆了全世界的区块链已经开始占据一席之地。
(4)2018年DTCC关键词文字云
2018 DTCC关键词总结2018 DTCC关键词文字云的主观感受即“分布式”、“MySQL”、“新一代”、“金融”、"Oracle”、“蚂蚁”,金融业在电子支付和移动互联网快速发展之后,已经成为数据库的改革圣地,而“分布式”第一次占领 了中间位置,“新一代”概念被重复提出、以蚂蚁金服为代表的国产数据库声浪愈发震耳。
三、第三方热度统计
首先借助全球最大的数据库门户网站DB-Engines的统计信息。
我从关系型数据库里面挑出了传统关系型数据库和分布式关系型数据库典型的产品,用于趋势图的绘制,包括“oracle”、“mysql”、“sql server”、“db2”、“mirocsoft access”、“hive”、“vertica”、“impala”、“spark sql”、“greenplum”、“amazon aurora”(下方深紫色曲线)、“spanner”(下方土黄色曲线)、“cockroachdb”(下方浅蓝色曲线)、“tidb”(下方土黄色曲线)。
DB-Engines 曲线图分析结果说明oracle、db2、sql server商用数据库依然强势,但已经开始有下降势头。新型具备TP处理能力的分布式数据库曲线由于时间较短,依然处于落后位置,但増式迅猛。
其次借助百度指数搜索热度统计。
这里由于百度指数的收录词库有限,这里只是对比了传统商用数据库代表Oracle和开源数据库代表Mysql在近五年间的热度趋势。
可以很明显看出,在2014年中下旬,mysql的搜索热度已经逐渐超越oracle,且逐年加大。商用数据库已经不是数据库方案的首位候选人,mysql以及基于mysql改造的各类分布式数据库已经成功搅动了当前数据库的格局。
百度指数统计四、主观分析
客观数据是基础,但隐藏在客观数据之后的思考结论才是正式的“战斗文件"。
1、需求永远是技术进步的“原始恐惧感”。
移动互联网时代的接入点数量和业务需求相比PC时代得到多个数量级的提升,数据库的并发能力和性能需要直面他们所要跨越的新高度。在“摩尔定律”的逐渐失效下,传统的单机型商用数据库已经开始显露瓶颈,分布式是必由之路,同时事务能力是万年不变的刚性需求,故分布式事务数据库成为当下的小银弹。
2、互联网的探索精神造就了一批“烈士和功臣”。
国内互联网没有那么多历史包袱背负,唯有自身业务的需求是他们的生命红线。所以以蚂蚁金服为代表的互联网企业开始走上了自主数据库研发的道路,过程真可谓“一步天堂、一步地狱”。但是我们最后很欣慰的看到Oceanbase、GoldenDB、TiDB、HotDB、云树系列、TDSQL等这些能够达到金融级服务水平的国产分布式事务数据库产品慢慢涌现,让我们对这条道路的可行性和正确性充满了信心。
3、政策沸腾了当前数据库领域的“99度热水”。
从主席发言到国务院规划,从工信部到央行银保监会相关文件,各类政策条目陆续开始指示“自主化”信息发展路线,同时点名“分布式转型”主题,精准的给当前国产分布式事务数据库领域99度的热水加上了关键的一度,让这个仅仅国内就过了百亿的市场最终喷涌沸腾。
五、最后是广告
前段时间信通院与支付清算协会牵头,组织国内最顶尖的厂商和银行联合编写了《金融分布式事务数据库白皮书》,里面有更多详细的产业、技术报告和观点,大家可以联系我获取电子版。
同时我们信通院已经开始着手新一代数据库基准研究工作,力图实现“国际分布式数据库第一把尺子由自主掌控”的愿景,欢迎有兴趣的厂商和人员与我联系。
最后声明,文中的观点、数据、图片均可引用,我们信通院将会一直秉持开放的理念,但希望同时能够介绍下我们的工作,让更多的人与我们一起来完成有意义的事情。
网友评论