DTCC 2020 | 阿里云叶正盛:数据库2025
摘要:数据库从上世纪五十年代发展至今,随着基础设施的改变,其技术也在不断演进。数据库市场也从原来商业化巨头形成的垄断地位渐渐变为云厂商处于领导地位,而将来在云上,数据库将会是兵家必争之地。与此同时,云原生技术、数据库自动驾驶技术以及数据库和大数据技术的融合使得数据库的将来更加充满生机。在DTCC 2020大会上,阿里云数据库产物管理与运营部总经理叶正盛为大家分享他对于“数据库2025”的展望。本文内容根据演讲灌音以及PPT整理而成。
演讲高朋先容:
https://p3.pstatp.com/large/pgc-image/8b204e31aa884016a372e15ed48d1b07
https://p3.pstatp.com/large/pgc-image/dcca526a42d34b74896d7e8eea41412d
叶正盛(花名:斗佛),阿里云数据库产物管理与运营部总经理,目前担任阿里云数据库产物总规划师,重要负责阿里云数据库的产物规划和产物运营相干的工作。之前从事软件研发工作十余年,2010年开始参加阿里做“去IOE”、异地多活和云盘算方面的工作,2020年领导团队冲进了Gartner全球数据库领导者象限。
数据库发展进程
https://p3.pstatp.com/large/pgc-image/164ed94f366f4377bd41e40cba98e769
在先容数据库2025的规划之前,首先回顾一下数据库的发展进程。数据库的发展离不开盘算机基础设施的发展,因此可以将数据库的发展分为五个阶段。
[*]第一阶段:上世纪五十年代的大型机时代。在这个时代,大型机可能不到100台,基本上用在科学研究和国防等领域,其时重要是层次和网状数据库,比较范例的产物是IBM的IMS,IMS已经很少可以或许见到,在一些金融领域另有应用。
[*]第二阶段:上世纪七八十年代,此时小型机已经开始遍及。不仅是在国防和科学研究,更多的是在商业领域,包括银行如许的系统开始应用小型机。与此同时,关系型数据库开始诞生,出现了包括DB2、Oracle以及Ingres等知名关系型数据库。
[*]第三阶段:上世纪九十年代,此时PC机、X86以及局域网等基础设施已经非常健全,IT应用范围已经扩展到企业全面的信息化,关系型数据库开始发达发展,出现了数据仓库以及单机数据库,比如SQL Server、dBase等数据库。
[*]第四阶段:到了2000年,开始进入互联网时代。大家也都有非常深刻的体会,无论是搜索、社交还是电商等都有非常广泛的应用,此时像MySQL、PG、Redis、MongoDB等开源数据库也得到了非常广泛的应用。
[*]第五阶段:今天是数据库的“云+端”时代。无论是新媒体、移动应用、云盘算以及物联网等,包括本年新冠疫情导致在线教育、在线办公都飞速发展,其实都代表着一个新的时代的开始。在这个阶段,云数据库起到了非常大的作用。比较范例的云数据库产物就是AWS的RDS和Redshift以及阿里云的PolarDB和ADB等。
DB-Engines数据统计
https://p3.pstatp.com/large/pgc-image/2474e510109044a5b6237bd379b03111
截止到2020年12月,在DB-Engines上目前一共有363种数据库。按照数据库模子来看,传统的关系型数据库和非关系型数据库占比为3:1,可以看出,关系型数据库依旧是主流。而按照商业和开源数据库的角度来看,两者依旧是平分天下。在商业数据库领域,具有代表性的数据库有Oracle、SQL Server等;而在开源数据库领域,具有代表性的数据由MySQL和PG等。
数据库-兵家必争之地
https://p9.pstatp.com/large/pgc-image/d81074dd7ff64719a3195cd888ae4b7d
为什么大家都来做数据库呢?AWS认为数据库是将来的兵家必争之地,因此一直以来对于数据库非常重视,每年的AWS re: Invent 上都有很多关于数据库的重磅专题发布。一般而言,在IaaS层,也就是对于服务器、网络和存储这一层面,大家都有比较同一的认识,今天很多企业其实已经创建的差不多了。而更上层的就是智能化应用,大家也正在渐渐形成同一的认识,那就是将来的应用肯定是向着智能化发展。从IaaS到智能化应用需要经历肯定的环节,而在这个环节中,数据库将会起到非常关键的作用,包括数据的产生、存储、消耗和分析,这些都是数据库要去解决的题目。因此,我们可以看到无论是国际巨头还是国内厂商都在数据库内里投入了大量的资源。
迎接新数据时代
https://p1.pstatp.com/large/pgc-image/f128970eb44547ceb0ecf05a74af65a6
前面的部门重要是进行回顾,接下来对数据库的将来进行畅想。如今我们正在迎接新的数据时代,上图中展示的数据来自IDC的报告,IDC统计预测,客岁全球有45ZB数据,而到了2025年数据量将会达到175ZB。而作为新数据代表的物联网,客岁大约具有4.4ZB数据,而在2025年将会达到90ZB,也就是说仅物联网将会占据将来一半的数据量。此外,数据将会存储在什么地方呢?根据IDC的报告,客岁全球大约有20%的数据存储在公共云上,而到2025年大约会有46%的数据存储在公共云,与此同时,还会有大量数据存储在私有云上。基本上就是说到2025年,大约80%至90%的数据将会存储在云上。
另一个方面,新数据会从哪些地方产生呢?以前数据基本上都是由PC、手机、平板电脑产生的,而在将来,汽车、视频、智能设备以及工业互联网都是新数据产生的范例场景,而且这些场景下数据产生的速度将会迅速提升。产生的数据大致分为两类:一类就是布局化的数据,这里的布局化数据不仅包括了关系型数据库中存储的关系数据,也包括了JSON、XML等之前大家称为半布局化的数据,如许的划分是由于这些数据在今天使用数据库的多模能力进行处理已经非常简单了,不像十年前那么复杂,因此这类的数据统称为布局化数据。另一类是非布局化的数据,包括了如今无处不在的产生日志、文本、图片、语音、视频和文件等,这些都是非布局化数据的代表。图片怎么布局化盘算,视频、语音等怎样转化为向量的多维数据来帮助分析或机器学习,都需要进行布局化的数据处理。今天的数据中台所考虑的就是怎样将数据的价值最大化,同时会结合AI相干的技术来做智能盘算,这正是新数据时代的样子。面对越来越多的数据量,怎样处理布局化和非布局化的数据,存在非常多的技术挑战和商业挑战。
云是数据库最重要的发展方向
https://p3.pstatp.com/large/pgc-image/14235194341d4a66a1fe059b9d4da1de
云是数据库最重要的发展方向,这也是Gartner的分析师给出的一个结论。其实Gartner分析师看得非常远,早在2018年就预测2022年全球75%的数据都会存在云上。从上图中也可以看出,使用云数据库的体量其实在逐年增长,2018年是22.75%,2019年是34.68%,2022年预测是75%。
Gartner基本上每年都会发布魔力象限,所有的数据库厂商都会非常关注魔力象限。可以看到,2013年数据库魔力象限的领导者象限中重要包括Oracle、微软、IBM和SAP,这几个巨头几乎处于无敌的位置,所有的NoSQL厂商以及大数据厂商都在普通玩家的象限。而到2020年,领导者象限发生了很大的变革,最强的领导者已经变为了AWS,其次是微软、谷歌、阿里云,这四家都是云盘算厂商,这也印证了Gartner所认为的云才是将来。无论是从市场份额,还是技术引领方面以及营销方面,这些云厂商所提供的数据库都具有良好的表现,所以才归入领导者象限内。而其他小厂商如果不和云结合,便很难在魔力象限中得到一席之地。可以或许进入魔力象限就已经是非常不错的厂商了,如果可以或许进入领导者象限,那就代表了Gartner认为这些厂商正在引领将来。
云原生数据库快速崛起
https://p3.pstatp.com/large/pgc-image/50ad25b7ddb74974bd5d0cbcf6a1b43f
上图的统计数据来自于DB-Engines,可以看到无论是Oracle还是DB2,他们的曲线相对而言比较平滑,其增长是非常缓慢的,而与之形成鲜明对比的是:云原生数据库领域发展得非常快。右图是亚马逊AWS、微软Azure、谷歌云以及阿里云的自研云原生数据库全部统计数据,可以发现云原生数据发展非常快。无论是从技术上还是生产上,云原生数据库代表着一种新的生产力。
数据库支持多云部署是最重要的战略方向
https://p1.pstatp.com/large/pgc-image/07c35d1d052440b9841032bb4a55ba87
数据库支持多云部署是最重要的战略方向。无论是谁来做数据库,如果不和云结合,市场拓展会非常难。数据库厂商有了很多的积聚,怎样打开将来数据库的市场,让自己的产物服务到更多的用户,充分利用好云为我们提供的基础设施是最重要的。如今全球的几个比较著名的新兴数据库厂商,比如Atlas(MongoDB)、SkySQL(MariaDB)、Redis企业云等都提供了多云部署架构,而本年比较火的Snowflake提供了完全的云原生部署,其不像是MySQL那样可以下载,而只能运行在云上面,这是由于Snowflake认为云原生就是将来的发展方向,所以没有必要再走其它的弯路。总体结论就是数据库是支持多云部署最重要的战略方向,无论是初创产物还是开源的成熟生态,云肯定是数据库的将来。
数据库大数据技术一体化
https://p1.pstatp.com/large/pgc-image/70639505a3cd47eb8c91e398c39b9939
数据库、数据仓库和大数据这几个概念每每交织在一起,如今的一个观点是数据库和大数据技术朝着一体化发展。Gartner在报告中已经将OLAP和OLTP以及大数据合并在一起了,这是由于他们在之前评估OLAP和OLTP以及大数据的魔力象限时会发现各个厂商都在拿同样的产物出来,因此可以看出各个厂商的产物都在向融合化的方向发展。而对于用户而言,也不想要相识清晰各个技术概念,其所关心的是业务价值。总而言之,数据库和大数据技术正在朝着一体化的方向发展。
进一步来分析为什么会如许呢?2003年到2006年可以认为是大数据的诞生期,谷歌的三大论文发表对于业界产生了巨大的影响力,但是值得留意的一点是谷歌所提出的技术重点是解决分布式扩展题目,不肯定应用在数据库上面。2006年到2014年是大数据的探索期,一些NoSQL数据库比如HBase、Cassandra的早期版本在这个时期出现。此外,SQL的接口模子也渐渐成熟,之前大家认为MapReduce比较通用,但是颠末实战之后发现SQL的接口更加友爱。与此同时,也开始出现了一些开源的分布式文件系统,如HDFS和Ceph等。2014年之后,技术发展趋势变得有意思了,数据库和大数据的技术开始融合,出现了像NewSQL如许的分布式数据库,比如Spanner、TiDB以及Cassandra后续版本等已经将分布式的BigTable理念与数据库的理念结合在一起了,这是在BigTable门路上的变革。在编程模子部门,以前部门产物将SQL当做外置的接口加强,而如今的很多产物将SQL当做自身原生的能力,就像是数据库一样,将SQL当做自己的内核,另有部门产物将存储过程当做自己的内核。而对于分布式文件系统部门,可以发现,云厂商在这部门做的非常好,无论是AWS的S3还是阿里云的OSS与云盘,他们自然就是分布式存储。固然分布式存储的技术挑战非常大,但是云厂商把这些题目基本上解决了,所以很多企业开始基于云厂商基础设施的能力构建分布式的数据盘算能力,这也导致了大数据技术、数据仓库以及数据库渐渐走向融合。以前大家认为数据仓库扩展性不好,所以出现了大数据技术,但是今天禀布式基础设施的能力已经变得非常强了,所以无论是数据库还是数据仓库,其扩展性都变得越来越好,足以处理PB级别的数据。别的一面,大数据产物开始将SQL能力全部融合进来,甚至将事务ACID等特性集成进去,这使得大数据技术和数据库技术两个领域快速融合,因此将来所需要考虑的事情是怎样朝着这个趋势演进,提供更多更良好的产物。
数据库自动驾驶能力连续加强
https://p1.pstatp.com/large/pgc-image/7cccead39d9343cbb406bd4d52f5beab
我在最开始的时候对于自动驾驶也持怀疑态度,但是随着这项技术越来越成熟并且渐渐被大家开始广泛使用,对于自动驾驶的认识也有所改变。数据库的自动驾驶和汽车的自动驾驶还是不太一样的,数据库做自动驾驶更轻易一些。2016年时,阿里巴巴数据库的自动驾驶平台叫做CloudDBA,这个产物所需要解决的核心题目就是整个阿里巴巴集团的数据库自动化运维的题目。其时阿里巴巴集团的数据库实例非常多,大约有几十万个,面对如此之多的数据库实例,仅依靠DBA人工运维很难保障。
因此其时阿里巴巴做了CloudDBA产物,其集成了很多自动驾驶的概念,最终盼望可以或许让数据库不需要通过人工干预,就可以或许对于出现的题目进行自动优化、修复,甚至在容量不足的时候进行自动扩容,在双11的时候可以或许实现智能压测,而且面对黑客攻击或者大促意外产生的SQL高峰也可以或许实现自动限流。到2018年的时候,这套产物就开始在阿里云上进行输出,叫做数据库自治服务DAS。在本年的时候,数据库自治服务DAS开始商业化,固然一开始对于商业化并没有特别大的期待,但是不到一年的时间,阿里云上就已经有2000多家企业开启了数据库自治服务。这也反映出了客户的一种诉求,那就是盼望数据库可以或许实现自动驾驶。固然很多用户并不清晰数据库自治服务背后的原理,但是却开启了这项服务,这是由于很多中小企业自身并没有DBA,自己也不想去做SQL优化,当看到数据库自治服务的产物先容,比如SQL峰值自动限流、CPU自动扩容等特性,发现这些就是客户自身所需要的。因此,从市场需求来看,数据库自动驾驶如许服务是需要的。从技术角度来看,其实也不是非常困难,DBA专家经验加上机器学习技术就可以实现这件事情。目前,阿里巴巴的数据库自治服务已经实现了“半自动”,固然还没有可以或许达到理想情况下的客户无需任何管理的情况,但是这个方向会连续加强,最终实现数据库全自动驾驶。
总结
https://p9.pstatp.com/large/pgc-image/57e170338c2e451eb7b6963a277341e1
末了总结一下,如今我们正在迎接新的数据时代,因此需要做好预备。固然今天我们的系统更多的跑在关系型数据库和数据仓库等,但是随着物联网、工业互联网这些领域的爆发,怎样去迎接新的数据时代是一个非常有意思的话题。其次,在新的数据时代,云原生数据库和数据仓库将会全面遍及。云原生概念在2020年已经非常流行了,而且云盘算作为基础设施已经得到了同等的认可,而云原生代表着云盘算内里最为核心的技术。再次,数据库将默认开启自动驾驶,这一点在技术上而言已经不再有瓶颈存在,将来将会在各个领域进行突破。末了,各种国产数据库百花齐放,并且应用到各行各业,很多核心系统都开始切换到国产数据库,如PolarDB、TiDB、达梦等等,国产数据库必将全面崛起。
本文为阿里云原创内容,未经允许不得转载。 转发了 转发了
页:
[1]