数据库行业研究陈诉:数据库,云化底座,百舸争流
(陈诉出品方/作者:中信证券,杨泽原、丁奇)陈诉综述:
安全可控势在必行,数据库国产替换加速开展,以党政为代表的国产替换先行,并不断向金融、电信等范畴拓展。同时,陪同云盘算、大数据技能的快速发展, 云数据库、数据仓库、大数据分析等范畴快速增长,国产数据库厂商有望依赖 在价格、服务、云技能结合能力等打造自身上风,抓住增量市场窗口期,迎广 阔蓝海。
数据库:云时代核心底座,数字化业务的电子文件柜,需求升级+技能迭代驱动 行业发展。数据库是按照一定的数据结构组织、存储和管理数据的仓库。19 世 纪 70 年代,关系型数据库原型 System R 诞生,引领第一波数据库海潮,Oracle、 IBM DB2、SQLServer 等主流关系型数据库崛起。进入互联网时代,从需求侧 看,数据量、数据复杂度快速提升,从供给侧看,云盘算引领产业升级。在此基 础上,非关系数据库、分布式数据库、大数据分析等技能快速发展,云厂商、独 立厂商开始对传统数据库厂商形成强有力的冲击。
参与者:传统 IT 巨头、云盘算厂商、独立厂商三类厂商,百舸争流。1)传统 IT 巨头:关系型范畴深耕,经久不衰 40 余年,主要解决数据存储的易用性、抽 象性、独立性等题目,团体仍占据主导地位;2)云盘算巨头:借助云盘算发展 趋势及专有场景打磨产物,提供云数据库及服务,满足企业海量数据存储、低成 本数据存储、动态变化数据存储等需求,是云时代的主力军。3)独立厂商:数 据快速发作,需求加速开释,独立厂商往往在特定场景如数据分析、非结构化数 据处理等范畴深耕,同时,多云趋势明显,独立厂商提供更加机动的部署方式。
全球规模:超五百亿美元大蛋糕,云时代百家争鸣。Gartner 数据表现,2018 年全球 DBMS 市场规模达 461 亿美元,同比+18.4%,增速达到近十年峰值,其 中云数据库贡献 104 亿美元,为行业增长贡献 68%,这种变化背后反映整个数 据库行业云化趋势显著。预计到 2023 年,75%的数据库要跑在云平台之上。其 中 Oracle 独占鳌头,云盘算厂商与独立软件提供商快速崛起,AWS 市场份额由 2014 年的第 6 升至 2018 年第 3 位,仅次于 Oracle、微软;阿里云由 2014 年 的 26 位跃升至 2018 年的第 9 位。Gartner 2020 年全球数据库魔力象限评估结 果,阿里云首进全球数据库第一阵营——领导者象限,是中国数据库厂商首次进 入全球顶级数据库行列。腾讯云、华为云进入“特定范畴者”。
国内规模:百亿市场,云化加速。智研咨询数据表现,2018 年我国数据库软件 市场规模为 139.25 亿元,其中,关系型数据库规模约 118.36 亿元,占比约 85%。 IDC 预测,2020 年关系型数据库云部署方式将会和传统部署方式的规模基本持 平,到 2024 年,中国关系型数据库软件市场规模将达到 38.2 亿美元,将来 5 年 CAGR 为 23.3%,其中云数据库占比将会接近 7 成。老牌数据库公司人大金 仓、武汉达梦、南大通用等主耕关系型数据库范畴,云盘算巨头阿里、华为、腾 讯等以分布式闻名,并不断扩大生态。独立数据库厂商借助云原生、分布式等技 术聚焦各自善于范畴,如 PingCAP 的 HTAP 数据库 TiDB,星环科技的大数据 底子平台等。
发展契机:安全可控带来良机,云与开源面向将来,国产厂商发展可期。安全 可控背景下,国产替换加速开展。金融方面,巨杉软件、易鲸捷、万里开源分别 中标唐山银行、贵阳银行、光大银行重点数据库项目。电信方面,阿里云、武汉 达梦分别中标中国移动国产数据库项目。另一方面,云盘算快速发展,预计 2023 年我国公有云与私有云市场规模将超过 3700 亿元,加速开释相应的数据库配套 服务红利。同时,借助开源的力量,国内数据库企业快速实现技能创新,缩小差 距甚至赶超外洋数据库龙头。面向将来,云与开源的趋势将会更加明显。
数据库:数字化时代的电子文件柜
概述:组织、存储和管理数据的仓库
数据库(Database,简称 DB)是按照一定的数据结构组织、存储和管理数据的仓库。 盘算机数据库中存放了有组织的、可共享的、统一管理的大量数据,包括文本、图像、声 音等,是信息化时代的数据文件柜。数据库和操作系统、中心件一样,属于底子软件的范 畴,高度复杂且存在较高的技能壁垒,是应用系统承载数据的基石。
数据库管理系统(Database Management System,简称 DBMS)是一种操作和管 理数据库的软件,用于创建、使用和维护数据库。DBMS 对数据库进行统一的管理和控制, 保证数据库的安全性和完整性。DBMS 是把用户意义下抽象的逻辑数据处理,转换成为计 算机中具体的物理数据处理的软件。用户通过 DBMS 访问数据库中的数据,数据库管理员 通过 DBMS 进行数据库的维护工作。 数据库系统(Database System,简称 DBS)一般由数据库、数据库管理系统、应 用系统、数据库管理员和用户构成。DBS 是存储介质、处理对象和管理系统的集合体,是 一个为实际可运行的存储、维护和应用系统提供数据的软件系统,数据库及其管理软件是 数据库系统的组成部门,数据库管理系统是其核心部门。
https://p1.pstatp.com/large/pgc-image/ac1088c1bfe44c68a46748b78d8f7272
分类:需求升级与技能迭代驱动,数据库品类多元化发展
数据库的分类多种多样,为了方便理解,我们从分别从需求侧和供给侧对当前主流的 数据库类型进行梳理。 从需求侧看,可对数据库进行以下两种分类:关系型数据库和非关系型数据库、OLTP 数据库和 OLAP 数据库。
1) 按数据存储方式分类:关系型数据库和非关系型数据库
关系型数据库是一种典范的数据库类型,采用关系模型,常用行和列等二维的形式来 存储结构化数据,一系列的行和列被称为表,一组表组成了一个数据库。典范的关系型数 据库有 Oracle、MySQL、DB2、Microsoft SQL Server 和 Microsoft Access 等。 随着 web2.0 的鼓起,传统的关系数据库在处理大规模和高并发动态数据时,出现了 响应慢、扩展困难等题目,非关系型的数据库由此应运而生。非关系型数据库的产生是为 了解决大规模数据集合多重数据种类的应用困难。
非关系型数据库又被称为 NoSQL,是 用非关系模型,存储非结构化的如图像、音视频等类型数据的数据库,分为键值存储数据 库、文档型数据库、图形数据库等多种类别。非关系型数据库通过例如图形模型、文档模 型等更为机动的模型,解决了关系型数据库无法应对的非结构化数据题目。非关系型数据 库有 Mongodb、Hbase、Redis、Cloudant 等。
2) 按应用类型分类:OLTP 和 OLAP
OLTP(On-Line Transaction Processing,操作型数据库,又称联机事务处理)主 要关注一段时间内的实时数据,基本特征是吸收的用户数据可以立即传送到盘算中心进行 处理,并在很短的时间内给出处理效果,是对用户操作快速响应的方式之一。陪同企业信 息系统大量业务数据的产生,从不同类型的数据中提取出对企业决策分析有效的信息这一 需求日渐显现。分析型数据库技能就是在这样的背景下发展起来的。OLAP(On-Line Analysis Processing,分析型数据库,又称联机分析处理)主要是分析长期数据的规律 走势,多应用于决策。
操作型数据库的上风在于在线实时业务的处理,分析型数据库则善于复杂的分析操作 并给决策提供支持,两者的侧重点不同,因此可以相互补充。例如可以从多个操作型数据 库源收集数据放入 OLAP 数据仓库中进行分析。在将来,会出现越来越多操作型数据库和 分析型数据库有机结合的应用。 典范的操作型数据库有 Oracle DataBase、MySQL、DB2、MongoDB 等;典范的分 析型数据库有 Apache Kylin、Hive、Snowflake、Oracle Hyperion、Spark 等。
从技能架构(供给侧)看,数据库可分为会合式数据库和分布式数据库
这种分类方式的诞生,一方面是由于传统会合式数据库缺乏扩展性,为了实现扩展而 出现了分布式数据库,另一方面,是缘于云技能和网络技能快速发展,推动分布式技能升 级,形成新型分布式数据库。会合式数据库由一个处理器、与它相关联的数据存储设备以 及其他外围设备组成,将数据会合在一台机器上进行处理,被物理地定义到单个位置。典 型代表有 Oracle、DB2、人大金仓、武汉达梦等;分布式数据库采用分布式架构,将数据 在网络上分开储存于多个机器中进行处理,分布式数据库是一个数据集合,这些数据在逻 辑上属于同一个系统,但物理上却分散在盘算机网络的若干站点上,并且要求网络的每个 站点具有自治的处理能力,能实验本地的应用。分布式数据库典范代表如谷歌的 Google Spanner、阿里巴巴的 OceanBase、华为的 GaussDB 等。
开源数据库是数据库发展的另一起径,也孕育了互联网的繁荣发展。开源软件是围绕 社区概念设计的,将数据库,API 和 Web 托管引擎的源代码存储库向公众开放,答应任何 人查看或贡献。社区中的领导者会指导和监控新功能的开发和修补错误。对于希望创建强盛技能底子的企业而言,开源工具一方面可降低成本、另一方面方便企业对技能的快速迭 代创新。比如国内的部门互联网巨头,一开始考虑到成本、可控性、技能创新型等因素, 多数选择基于开源的数据库进行数据库的深度研发,并在研发过程中不断回馈开源社区。
开源数据库并不是和商业数据库背道而驰的,开源数据库同样可以实现商业化。我们认为, 在云盘算快速发展的时代,商业数据库和开源数据库有望实现进一步融合。开源数据库典 型代表如 MySQL、PostgreSQL、MongoDB、Hbase、TiDB 等
全球格局:Oracle领衔,云时代百家争鸣
参与者:传统 IT 巨头、云盘算巨头、独立公司三方权势竞逐市场
数据库市场目前主要由传统 IT 巨头、云盘算巨头、独立数据库公司三大权势角逐。 传统 IT 巨头多在关系模型范畴深耕,团体占据主导地位,但云盘算、大数据的快速发展带 来了需求的进一步发作,云盘算巨头、独立数据库公司的数据库产物快速崛起。以 Apache 软件基金会为代表的开源项目在数据库市场也具备一席之地,但这些项目往往不以盈利为 目的。
1)传统巨头:传统数据库范畴,国外数据库厂商起步较早,全球的传统 IT 巨头不断 进行战略布局和产物迭代,在传统数据库范畴主导市场,包括 Oracle、IBM、Microsoft、 SAP 等。
2)云盘算巨头:陪同云盘算、大数据等技能的快速发展,互联网巨头在数据库市场 大放异彩,云盘算巨头的数据库产物借势快速发展,包括亚马逊、谷歌、阿里、腾讯、华 为、Facebook 等。
3)独立厂商:在商业化和开源并行发展的同时,也涌现出一批技能起家的数据库独 立厂商,如 Mongodb、Snowflake 等公司,各自在自身的强势范畴深耕细作。
传统巨头在关系型 OLTP 范畴强势,云盘算巨头以及独立数据库厂商在非关系型范畴 以及 OLAP 范畴更具竞争力。云盘算巨头更多的是依赖云盘算、大数据的快速发展崛起, 同时,独立厂商更多的选择依赖开源快速提升产物影响力和市场认知度,同时依赖社区的 力量,也可以对产物进行快速的迭代升级。
从流行程度看,传统数据库产物占据主流地位,传统巨头甲骨文、微软、IBM 排名稳 居前列,另一类是开源社区版数据库,包括 MySQL、PostgreSQL、Redis 等,值得注意 的是,MongoDB 作为独立数据库厂商,流行程度排名第五位,凭借其优异的产物性能、 丰富的应用场景赢得市场的青睐。
从产物维度看,传统 IT 巨头以及云盘算巨头的产物布局较为完满,独立数据库厂商 专注于各自善于范畴。传统 IT 巨头如 Oracle,具备关系型、非关系型、分析类、开源等 多品类数据库产物,满足企业多样化需求。互联网巨头如亚马逊,产物主要围绕云生态布 局,多种云数据库、云数据仓库产物。独立厂商如 MongoDB,专注于文档存储数据库 MongoDB 的开发。独立厂商又如 SnowFlake,专注于数据仓库的开发,主要应用于分析 类场景。
市场规模:五百亿美元大蛋糕,云数据库快速崛起
各路豪强瓜分 500 亿美元市场大蛋糕。Gartner 陈诉表现,2018 年全球数据库管理系 统(DBMS)市场规模达 461 亿美元,同比+18.4%,增速达到近十年峰值,其中云数据 库贡献 104 亿美元,为行业增长贡献 68%,这种变化背后反映整个数据库行业云化趋势显 著。Gartner 预计,到 2021 年,云数据库在整个数据库市场中的占比将首次达到 50%; 而到 2023 年,75%的数据库要跑在云平台之上。
https://p1.pstatp.com/large/pgc-image/67f0abeb5aee431ab06a2d24ed6a0c24
Oracle 独领市场,全球云盘算巨头市场份额快速提升,专注于数据库的创业型公司 逐渐崛起。从需求端来看,受益于数据量的发作,大数据的相关应用场景日渐丰富,带来 不同类型数据库需求量的快速增长。从供给端来看,云技能快速普及,各大互联网厂商积 极推出各种基于云架构的数据库产物,匹配云盘算的发展,不断提升数据库的盘算和存储 性能。根据 Gartner 数据表现,2014 年 AWS 位列第 6,2016 年第 5,2017 年第 4,2018 年第 3 位仅次于 Oracle、微软;阿里云由 2014 年的 26 位跃升至 2018 年的第 9 位;谷歌 云由 2015 年的 23 位跃升至 2018 年的第 10 位;华为由 2015 年的 24 位跃升至 2018 年 的第 11 位;腾讯云由 2016 年的 27 位跃升至 2018 年的第 13 位。
以阿里、华为、腾讯为代表的中国云厂商正在崛起。根据 Gartner 2020 年全球数据 库魔力象限评估效果,阿里云首次挺进全球数据库第一阵营——领导者象限,是中国数据 库厂商首次进入全球顶级数据库行列。腾讯云、华为云进入“特定范畴者”。Gartner 数据 表现,2019 年腾讯云数据库市场份额增速达 123%,位居国内所有数据库厂商之首,并在 全球范围内保持了连续两年增速前三的迅猛势头。华为云凭借 GaussDB 系列数据库产物 提供完满的产物矩阵和数据库迁移解决方案,基于融合开放理念,广泛兼容数据库开源生 态和华为自主生态 openGauss。
崛起规律:深耕技能打磨产物,抓住大数据时代潮水
(1)传统 IT 巨头:关系模型掀起数据库发展第一浪
20 世纪 60-70 年代,关系模型快速发展,关系型数据库可解决数据存储的易用性、 抽象性、独立性等题目,拉开了关系型数据库软件革命的序幕。1970 年,IBM 公司的研 究员埃德加·考特在 Communications ofACM 上发表著名论文的《A Relational Model ofData for Large Shared Data Banks》,在还是层次模型和网状模型的数据库产物在市场 上占主要位置的时代,拉开了关系型数据库软件革命的序幕。
IBM 在 1973 年就启动了 SystemR 的项目来研究关系型数据库的实际可行性,各方 关系型模型支持者汲取该项目经验,进行关系型数据库研发。1977 年,Oracle 首创人 Larry Ellison 与 Bob Miner 和 Ed Oates 在硅谷共同创办了一家名为软件开发实验室的盘算机公 司(Oracle 前身),开始进行关系型数据库的研发,同时期 Berkeley 大学也在进行关系数 据库系统 Ingres 的开发。IBM 虽然 1973 年就启动了 SystemR 的项目来研究关系型数据 库的实际可行性,也没有及时推出这样的产物,由于当时 IBM 的的 IMS(著名的层次型数 据库)市场较好,公司当时认为,假如推出关系型数据库,会是对另一款产物的颠覆。
80-90 年代,大量数据库公司汲取关系模型经验,逐步推出自己的产物。1983,IBM 发布商业版数据库 DB2。1984 年,Sybase 公司成立,首创人之一 Bob Epstein 是 Ingres 大学版(与 System/R 同时期的关系数据库模型产物)的主要设计职员。1988 年,微软推 出 SQLServer,主要适配自身 Windows 生态,这个时期,Oracle 由于客户需求已经使用 C 语言开发出适用于多个系统版本的数据库产物。90 年代,Mysql、PostgreSQL 等开源 版本数据库陆续发布,出现在人们视野中。
我们认为,传统 IT 巨头在数据库范畴能经久不衰的缘故原由有以下几点:
a.起步较早
国外数据库厂商相对于国内厂商早起步 20-30 年。国内厂商中,如今占据国内市场份 额较多的南大通用成立于 2004 年,达梦成立于 2000 年,而国外的 IT 巨头早在上个世纪 便已经在这一范畴进行研究发展,如 Oracle 诞生于上个世纪七十年代,早在 1989 年便进 入中国市场,2019 年已经发布了最新版本的 Oracle DB 19C。而 IBM 等公司同样在同期 已经有了数据库的研发。先入为主导致技能领先和客户粘性是如今国外厂商仍然占据国内 数据库市场巨大份额的紧张缘故原由。
b.产物快速迭代
龙头数据库公司对于产物的更新换代较为积极,能够产生较大的用户粘性,使得市场 份额上风持续。以Oracle为例,在 Oracle9i产物中引入网络(Internet)的特性,在 Oracle10g 中参加网格盘算(grid)的特性,在 Oracle12c 中则引入云(cloud)的概念,不断让产物 有新的突破。而通过每一次更新对于产物的漏洞进行及时修复、推出新的应用、优化产物 的性能,也都会吸引已有的用户持续使用这款产物。数据库的这些特征,使其如同操作系 统一样存在较强的用户粘性,帮助行业龙头厂商迭代已创建的市场份额上风,因此数据库 行业是一个轻易形成寡头的行业。
c.技能领先,性能加持
Oracle 的数据库产物包括两大类,第一种是自研的 Oracle Database,另一种是收 购之后归入 Oracle 公司的 MySQL。
Oracle Database 适用于大型企业,在兼容性、可移植性、可连结性、开放性方面都 有巨大上风。以其兼容性为例,Oracle Database 可以在 Windows、Unix、DOS 等多个 系统上工作;Oracle Database 也支持多种协议,如 TCP/IP、DECnet 等,可以与多种通 讯网络连接;Oracle 还提供了多种开发工具,方便用户自己做进一步开发。Oracle 在系统 吞吐量的 TPS(Transactions Per Second)、QPS(Query Per Second)、并发数等关键性能 指标在同类产物中领先。以 Oracle 12.2 为例,C 语言代码达到了惊人的近 2500 万行。
MySQL 是瑞典 MySQL AB 公司开发的一款开源数据库产物,定位在于开发小而精的 产物,其易用性强,拥有得当分布式组织的可伸缩性,也有为决策提供帮助的数据仓库功 能,还与许多其他服务器软件紧密关联,拥有精彩的性价比。2008 年 Sun 以 10 亿美元收 购了 MySQL,而 Oracle 在 2009 年用高达 74 亿美元的资金收购了 Sun,将 MySQL 酿成 了 Oracle 旗下的产物。
数据库产物最紧张的指标之一是性能,Oracle 产物上风出众。安全性能方面,Oracle 的安全机制得到 17 家独立安全评估机构的认可,得到最高认证级别的 ISO 尺度认证,SQL Server 几乎没有得到安全证书,而 IBM 则选择在数据库之外解决安全题目,依赖操作系 统等来保证 DB2 的安全;可伸缩性和并行性方面,Oracle 的服务器通过使一组结点共享 同一簇中的工作来扩展,提供高可用性和高伸缩性的解决方案。SQL Server 和 DB2 的并 行实施和共存模型仍不够成熟,在处理日益增多的用户数和数据方面的伸缩性有限;在开 放性上,Oracle 能在所有主流平台上运行,支持所有工业尺度,使用户可以自由选择最佳 方案解决题目,没有 SQL Server 只能在 Windows 系统上运行的局限性。Oracle 的底层使 用 C 语言开发而成,随着不断发展在开发中也参加了 Java 语言和技能尺度,并且支持绝 大多数编程语言,相比之下,竞争对手中的 SAP 的数据库软件 SAP Adaptive Server、SAP SQL Anywhere 等均只支持几种编程语言,与其他技能与平台的兼容度低于 Oracle。
Oracle 在产物的多功能性上拥有较大上风,拥有 RAC 等数据库范畴的硬核技能。 Oracle RAC (Real Application Clusters)是 Oracle 的一项支持网格盘算环境的关于应用集 群的核心技能。在一个应用环境中,让多个服务器来管理同一个数据库,分散了每一台服 务器的工作量。Oracle RAC 的技能大幅提升架构的可用性、性能、扩展性,即使某些实 例宕机,也能维持系统正常工作;提高集群的事务处理能力,使得多个实例能够并发工作; 能通过增加节点提高数据库的性能;Oracle DataGuard是Oracle的高可用性数据库方案, 主要功能是数据保护、数据容灾。Oracle DataGuard 在主节点和备用节点之间通过日记同 步来保证主数据库与备用数据库之间数据的同步,实现数据库的快速切换和故障恢复,最 大程度保护数据库的安全。
https://p1.pstatp.com/large/pgc-image/bdd8ffbf42124c54a45f8d11057320be
d.生态完满
国外数据库公司注重技能创新和边界拓展,不断得到用户粘性。以 Oracle 为例,Oracle 是第一个引入对象概念、多媒体等多种数据格式、并行技能、网格技能的数据库。作为数 据库产物的标杆,Oracle 的 IT 布局十分完备,开发的产物涵盖了行业管理软件、企业管 理软件、中心件、数据库、操作系统、服务器、存储等多个范畴。
此外,国外数据库产物的商品化程度高,一系列配套的服务也更为成熟。如 Oracle 为企业提供的 ERP 管理软件,帮助企业迁移到云 ERP 上,助力企业提高弹性和敏捷性, 驱动企业实现业务增长。
(2)云盘算巨头:低成本、高弹性需求驱动,以自身应用场景向外延展
云数据库是部署和虚拟化在云盘算环境中的数据库,以服务的方式提供数据库功能。 云数据库是在云盘算的大背景下发展起来的一种新兴的共享底子架构的方法,它极大地增 强了数据库的存储能力,消除了职员、硬件、软件的重复配置,让软、硬件升级变得更加 轻易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点, 可满足企业海量数据存储、低成本数据存储、动态变化数据存储等需求。
我们认为,云盘算厂商数据库产物快速发展立足的缘故原由有以下三点:
1)成本压力变大,各厂商逐渐开始基于开源进行自研。以阿里巴巴为例,阿里曾经 就是甲骨文在亚太地区最大的客户,但由于 Oracle 数据库的高昂价格,阿里逐渐切换为基 于 MySQL 进行自研。
2)各大互联网厂商依托其专有应用场景不断完满打磨产物,终极向外延伸实现边界 的扩张。以亚马逊、阿里巴巴为例,这些厂商场景复杂,需求快速发作,传统数据库产物 不能及时响应自身业务需求,程序员又无法看到 Oracle 核心源代码,便依托其电商场景下 庞大的数据处理场景打磨数据库产物。在此底子上,逐步演进为云数据服务提供商,提供 多种云数据库、数据仓库、数据发掘类产物。
3)实现高自主可控。云盘算厂商大多希望可以自己开发底层系统,实现系统软件的 安全可控,基于此,可以更好的保障自身业务和客户数据的安全性。
从供给端看,全球云盘算产业快速发展中国增速更高,云时代新型数据库厂商开始持 续涌现。受益于云盘算的快速发展,以分布式、微服务、容器等为代表的云原生技能不断 更新迭代与升级,为数据库产业的发达向上奠定坚实底子。2019 年,全球总体云盘算市 场规模达到 1883 亿美元,同比+20.86%。根据 Gartner 预测,将来四年全球云盘算市场 规模 CAGR 将保持在 18%左右,2023 年团体市场规模将达到 3500 亿美金。我国云盘算 市场将来有望是公有云和私有云并存发展,根据信通院预测,2023 年我国公有云市场规 模将达到 2307 亿元,我国私有云市场规模将达到 1447 亿元,团体增速高速全球云盘算市 场增速,云时代新型数据库厂商开始持续涌现。
从需求端来看,数据量的发作以及数据形式的多元化带来了发作性的市场需求。全球 数据量生产迅猛,IDC 预测,2020 年全球数据产生量将达到 49ZB,同比增长 23%;中国 产业信息网预测,我国产生的数据量将从 2018 年的 7.6ZB 增至 2025 年的 48.6ZB,CAGR 达 30.35%,超过美国同期的数据产生量约 18ZB。2010-2018 年全球物联网设备数目高速 增长,CAGR 达 20.9%,2018 年全球物联网设备连接数目高达 91 亿个。预测 2025 年全 球物联网设备(包括蜂窝及非蜂窝)联网设备将达到 252 亿个。2018 年我国物联网连接 规模为 23 亿,预计 2022 年物联网连接规模将达到 70 亿。
https://p3.pstatp.com/large/pgc-image/328bba68c11b4fd4a68b322f40744381
(3)独立厂商:云原生大数据带来多元化需求,各路豪强竞相崛起
我们认为,独立数据库厂商有望快速发展,市场百花齐放,缘故原由有以下三点:
1)对于独立厂商而言,多元化需求带来多重机会。从需求看,半结构化数据、非结 构化数据快速发作,各公司借需求多元化发展的趋势,推出得当特定场景的数据库产物。 如 SnowFlake 基于云原生,在大数据时代做数据科学、数据分析、商业智能。
2)云盘算推动分布式快速发展,各厂商不断实现新品升级。云盘算快速发展,分布 式技能逐渐成为主流发展趋势,各独立厂商不断基于新架构发布产物,如基于云原生、存 储盘算分离等,带来先辈的性能、高弹性、易扩展等上风。而传统数据库厂商在新架构之 上的技能转型往往存在一定难度。
3)多云快速发展,中立上风明显。公有云和私有云结合的趋势日渐明显。中立厂商 开发数据库产物的同时往往会考虑多种环境,打通多个云环境,是企业在选型云产物的时 候更加机动。 以非关系型数据库、数据仓库、HTAP 等品类为例,将来有望出现多元化发展、百花
a. 非关系数据库(NoSQL)范畴:
以 MongoDB 为例,是一个基于分布式文件存储的数据库,旨在为 WEB 应用提供可 扩展的高性能数据存储解决方案,介于关系数据库和非关系数据库之间,具备高性能、易 部署、易使用,存储数据方便等特点。
NoSQL 泛指非关系型数据库,区别于关系数据库,它们往往不保证关系数据的 ACID 特性,对于超大规模和高并发数据具有较好的处理能力。NoSQL 数据库种类繁多,数据 之间无关系,轻易扩展。NoSQL 数据库具有非常高的读写性能,尤其在大数据量下,主 要在于它的无关系性,数据库的结构简单。目前对于非关系型数据库主要有四种数据存储 类型:键值对存储(key-value),文档存储(document store),基于列的数据库 (column-oriented),图形数据库(graph database)。
b.数据仓库范畴:
OLAP 是数据仓库系统的主要应用,其支持的对象只要是面向分析场景的应用,提供 结构化的、主题化的数据提供给运营,做业务反馈和辅助决策用,同时,有些场景下,也 可以由数据仓库对业务进行支持。
以 Snowflake 为例,提出了云原生数据仓库 Cloud Native DataWarehouse(CDW) 的理念,利用云原生的数据仓库技能,采取盘算、存储分离架构,为客户提供了机动、按 需付费的应用模式。
Snowflake 重视云原生数据仓库的构建。传统大厂例如 Oracle,Teradata,Netezza 由于本身产物架构的局限性,在性能、并发性、易用性上并不能完全良好的解决企业业务 需求,Snowflake 提出了独特的存储、盘算以及管理服务分离的架构。Shared-disk 架构指 数据存储在同一位置,共享同样的资源。这种架构轻易在多用户访问的环境下导致系统崩 溃,同时也难以满足高频读写、数据复制与迁移等需求。Oracle Exadata 采用了这种传统 的数仓架构,在延展性和并发性上相对落后。Shared-nothing 架构通过优化规则将资源分 摊到各个节点,每个节点不共享任何数据,数据的处理过程不存在争抢资源的环境,从而 提供更有效率的延展性和并发性。Netezza,Teradata,Redshift 采用此架构,也是 Hadoop 工作的基本原理,但此方式节点资源没有将存储和盘算分开。当升级或者扩容发生时,系 统 需要重 新分配节 点资源 ,那么 数据本身 就会面 临大量 的迁移。 Snowflake 在 Shared-nothing 的底子上提出了 Multi-cluster, shared data 的概念,这种架构的关键在 于将存储和盘算彻底分离,从本质上解决了传统数仓架构的痛点。数据即服务 DaaS 指与 数据相关的任何服务都能够发生在一个会合化的位置,如聚合、数据质量管理、数据清洗 等,无需考虑数据源,Snowflake 完全符合 DaaS 的概念。
https://p1.pstatp.com/large/pgc-image/b522c91c90224a618d0497644ea508b9
c. HTAP 范畴(同时支持 OLTP 和 OLAP):
HTAP 架构面向多种场景,系统统一,有望成为新一代数据库的紧张发展方向之一。 基于创新的盘算存储框架,HTAP 数据库能够在一份数据上同时支撑业务系统运行和 OLAP 场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。此外,HTAP 基于分布式架构,支持弹性扩容,可按需扩展吞吐或存储,轻松应对高并发、海量数据场景。 目前,实现 HTAP 的数据库主要有 PingCAP 的 TiDB、阿里云的 HybridDB for MySQL、 百度的 BaikalDB、腾讯的 TBase 等。其中,TiDB 是国内首家开源的 HTAP 分布式数据 库。
国内格局:各方权势迅速崛起,自主可控势在必行
市场格局:关系型数据库占据主流,云数据库借势崛起
超百亿规模,关系型占据主导,但团体占比出现下滑趋势。关系型数据库在数据库市 场的占比常年维持在 85%以上,由于数据量的发作、数据形式的多元化,关系型数据库市 场比重比年来有所下滑,但将来较长一段时间内仍会是数据库行业的主流。智研咨询数据 表现,2018 年我国数据库软件市场规模为 139.25 亿元,其中,关系型数据库规模约 118.36 亿元,占比约 85%。Oracle 数据库占比关系型数据库超过 46%,国产数据库软件主要有 人大金仓、武汉达梦、神舟通用、南大通用、山东瀚高等。
https://p9.pstatp.com/large/pgc-image/f3db53a3b1bc46a88424db2eaa8bab0e
基于公有云的数据库厥后居上,目前与传统部署下的数据库规模基本持平,随着云数 据库的高速增长,将来将超过传统部署下的数据库市场规模。IDC 数据表现,2019 年中 国关系型数据库软件市场规模为 13.4亿美元。其中,传统部署模式市场规模为 7.9亿美元, 公有云模式市场规模为 5.5 亿美元,团体市场同比增长 30.8%。IDC 预测,到 2024 年, 中国关系型数据库软件市场规模将达到 38.2 亿美元,将来 5 年团体市场年复合增长率 (CAGR)为 23.3%。
传统部署模式下,此前国内市场占据上风地位的仍然是国外的数据库厂商,Oracle、 Microsoft、SAP、IBM 四家公司占据 66.8%的市场份额,国产厂商加速发展。近几年国 内传统数据库厂商在国内数据库市场所占的份额在逐渐上升。根据 IDC 数据表现,在传统 部署模式下,2019 年南大通用的市场份额达到了 4.2%,人大金仓的市场份额达到了 2.7%, 其他几家国内厂商如武汉达梦、山东瀚高、神州通用等公司也快速发展。
云数据库范畴,阿里巴巴占据领先地位,云数据库厂商上升远景将在将来几年迅速显 现。根据 IDC 数据表现,阿里巴巴团体(含蚂蚁金服数据库业务收入)以 48.1%的市场份 额排名第一;腾讯以 20.4%的市场份额排名第二,2019 年腾讯加快数据库服务产物化的 速度,连续发布多款新产物;AWS 以 10.4%的市场份额排名第三;Oracle、华为、微软 分别以 7.0%、3.0%、2.5%的市场份额位列第四到第六位。云厂商的数据库大都先用于内 部业务的使用,经过多年打磨使技能更加成熟,再针对外界的其他业务场景做出更新,将 数据库云化、产物化提供给其他用户,以阿里、腾讯为代表所研发的数据库均是这种发展 路线。由于之前一直用于内部业务,并未产物化地作为商业数据库软件贩卖,面向外界开 放的时间较短,因此团体市场份额暂时落后。以阿里巴巴的 OceanBase 为例,OceanBase 立项于 2010 年,2011 年应用于蚂蚁金服的收藏夹功能中,经过多年的打磨与历练,一直 到 2017 年才开始帮助外部客户解决题目。我们判断,将来云数据库将持续快速发展,云 数据库有望成为数据库市场的主流。
国产替换:安全可控势在必行,打磨产物换道超车
二十一世纪以来,我国的信创产业发展越来越受到国家的重视。2008 年的“微软黑 屏事件”,2013 年的“棱镜门”事件,都让我们意识到拥有自主的信息技能的紧张性。近 年,中美商业争端带来了一系列摩擦,尤其是华为、中兴等公司受美国当局的打压面对巨 大困境,许多中国科技公司被美国商务部列入“实体清单”。中美商业争端的本质也是中 美科技战,只有把握技能的自主创新能力才能让国家更繁荣发展。在这样的背景下,信息 产业的软件和硬件的国产化需求会越来越猛烈,当局将持续出台政策扶持信创产业发展。
我国的信创产业迄今为止可以分为四个阶段:
第一阶段:从 2006 年到 2013 年。我国在 2006 年发布了《国家中长期科学和技能发 展规划纲要(2006 年-2020 年)》,明白提出要大力发展核心电子器件、高端通用芯片及 底子软件产物,这些产物简称“核高基”,其中底子软件指的就是操作系统、中心件和数 据库。
第二阶段:2014 年到 2016 年。在此期间,“核高基”专项开始在多方面突破核心技 术走向产业化,如海思自主研发的国内首款智能电视 SOC 芯片实现了量产。
第三阶段:从 2017 年到 2019 年。2017 年,“核高基”重大专项第二批工程启动会 召开,2018 年“核高基”国家科技重大专项课题实施推进会在京召开。
第四阶段:从 2020 年开始。2020 年被称为信创产业大规模推广的元年,国家将在战 略层次不断支持信创产业前进,推动从软件到硬件构建信创生态。
针对“核高基”中的底子软件产物,阿里巴巴在 2008 年提出了“去 IOE”的概念。 所谓去 IOE,指的是在 IT 架构中去掉 IBM 的小型机、Oracle 数据库和 EMC 存储设备。 这也是国内整个信创行业一直以来科技创新的努力方向和目标。
数据库作为底子软件的一 种,在信创产业中是非常紧张的一类,推动数据库国产化将是信创政策中必不可少的一环。 我国通过前期的科研投入,在大数据相关技能范畴已具备加快技能创新的良好底子。 “十三五”期间,国家重点科技研发计划实施了“云盘算和大数据”重点专项,部门范畴 已取得较大希望。大数据也已列入“科技创新 2030—重大项目”,从大数据生命周期和信 息技能体系两个维度全面规划、全链条推进大数据技能体系建立。国家发改委组织建立国 家级大数据工程实验室,加强盛数据范畴相关技能创新基地建立。各地也陆续推出一批与 大数据相关的政策措施。贵州、上海、京津冀、珠三角等 8 个综合试验区正在开展大数据产业发展试点。十九大陈诉中明白提出要建立“数字中国”,推动互联网、大数据、人工 智能和实体经济深度融合,实施大数据战略,加快建立数字中国。
安全可控背景下,以党政军为代表的信创行业正加速实现国产替换,传统老牌数据库 厂商是本轮红利核心受益者,党政信创正持续放量。2020 年,以党政公文、OA 系统为代 表的信创数据库招投标工作加速开展,2020 年 Q4 各数据库公司团体进入业绩兑现阶段, 主要代表公司为人大金仓、武汉达梦等。我们认为,自 2021 年起,党政数据库建立有望 从以公文系统为代表的边缘系统逐步向电子政务等核心系统范畴迈进,同时陪同十四五规 划的逐步落地,军方信创建立也将逐步加速。
行业信创正部门起量,金融、电信行业引领市场,将来各行业实现全面国产化替换可期。金融行业方面, 2020 年 10 月 19 日,易鲸捷中标 4.26 亿元贵阳银行核心业务系统易 鲸捷国产数据库应用项目。2021 年 1 月 27 日,万里开源中标中国光大银行会合式数据库 定制研发项目;2021 年 1 月 21 日,巨杉软件中标唐山银行新一代信息系统项目集群影像 平台数据库软件项目采购。电信方面,中国移动国产数据库替换走在前列,2020 年 9 月 16 日,武汉达梦中标苏州研发中心 2020-2022 年移动云国产数据库项目;2021 年 1 月 13 日,阿里云中标中国移动福建分公司 2020 年国产分布式关系数据库软件。
在安全可控的背景下,传统数据库厂商、云厂商、独立数据库厂商有望在政策的不断 驱动下投入技能研发,不断打磨产物,进而缩小与外洋数据库龙头的差别,借此机会,各 厂商不断在当局、电信、金融范畴树立标杆项目,将来有望不断向更多的范畴拓展,借此 实现换道超车。
趋势推演:大数据驱动产业变革,云与开源助推企业快速成长
从整个大数据产业链来看,上游是硬件设备和底子设备,下游则是各种应用软件,而 数据采集、数据存储和云平台、数据分析和发掘则是位于产业链的中游。其中 Microsoft、 IBM、Oracle、Snowflake 等公司的数据库软件实现了数据分析和发掘功能。由于大数据 一般有数据类型繁复、数据量庞大、分布式存储等特点,仅凭借传统关系数据库存取和分 析大数据存在一定的难度,因此 Oracle、IBM 等公司都实验将自己开发的一些产物与 Hadoop 等进行融合,取长补短,以满足大数据处理的需求。大数据产业的快速发展给国 内数据库厂商带来众多机会。
云盘算与大数据高度结合,加速产业变革,数据库上云趋势明显,助推国内企业快速 成长。从技能升级来看,云盘算快速发展,加速开释相应的配套服务红利,尤其是混合云 趋势日渐明显,不管公有云厂商还是独立数据库厂商均有望得到良好的发展机会。根据 Gartner 的预测,到 2023 年将有 75%左右的数据库会被部署或迁移到云平台上。从需求 来看,需要处理的数据越来越多,需要处理数据的频率也越来越高,往云端发展,可以同 时解决数据量大和使用频率高两个题目,同时具备高弹性、低成本等上风。
国内云盘算龙头多借助自身场景向外拓展,阿里巴巴、腾讯等公司面对过许多短时间 内数据量巨大的场景。如阿里巴巴的双十一,需要处理来自全国的海量用户的数据,阿里 云在 2019 年的双 11,创造了 54.4 万笔/秒的交易峰值,2019 年双 11 单日处理数据量达 到了 970PB。腾讯近几年的爆款手游王者荣耀、春晚的微信红包等也是面对极大的数据流 量。这种在任何欧美国家都不会遇到的复杂多变的应用场景、惊人的用户数目以及瞬息万 变的用户需求,促使中国数据库厂商快速崛起。阿里、腾讯等国内公司在大数据方面通过 了严峻的挑战,有更多的经验去进一步发展大数据技能,雷同的数据处理经历也能够让用 户对他们的技能更有信心。由于分布式数据库更多地与云技能相结合,因此分布式数据库 的进步与云的服务模式关系密切。中国信息通信研究院的云盘算发展白皮书(2019 年) 的数据,在国内,IaaS 市场占比达到 60%左右,这体现我国在云底子办法的建立方面有 了一定成绩,能够为分布式数据库的进一步发展做好底子,但是同时也反映出我国的 SaaS 和 PaaS 市场存在巨大的发展空间。
https://p3.pstatp.com/large/pgc-image/88382b8ecbe6462cac166c205f37ccad
开源社区的持续火热助推数据库技能快速发展。开源模式是一种相对于专有模式的开 发模式,是指将源代码进行公开,更好的促进软件的快速创新。开源软件层出不穷,任何人可以得到软件的源代码,加以修改学习,甚至在许可范围内重新发放。
热门开源项目持续涌现,科技巨头和开源软件公司积极参与。比年来,开源热度持续 攀升,机器学习、容器、移动端开发等热门范畴开源项目持续快速增长。据 GitHub 数据 表现,截止 2018 年,GitHub 已有 3000 万开发职员,200 万家企业和组织,拥有 9600 万个代码库。各大科技公司如谷歌、红帽、微软、阿里巴巴是开源项目的主要贡献者,不 断提升技能积累和影响力,为自身生态的构建和市场的拓展奠定底子。开源数据库包括 PostgreSQL、Hbase、Mysql 等。开源数据库的比例在逐步上升,DB-Engines 的统计 效果表现,截止 2020 年开源数据库和商业数据库的比例已经相近。
借助开源的力量,国内数据库企业快速实现技能创新,缩小差距甚至赶超外洋数据库 龙头。根据 DB-Engines 的另一项关于两类数据库的受欢迎程度的调查效果表现,开源数 据库从 2013 年以来受欢迎程度一直出现出增长的大趋势。经过不断的发展和完满,开源 数据库的功能也变得越来越强盛。Rightscale 数据表现 2018 年全球有 24%的私有云的底 层技能使用了开源云盘算平台 Openstack,国内许多私有云也都是基于 Openstack 平台。 而 Openstack 平台的许多用户在开发时使用了开源的 MySQL 的相关技能。云数据库架构 许多都以开源代码为底子进行开发,缩小了国内外数据库公司在分布式数据库范畴的技能 壁垒。在分布式数据库的开发中,国产数据库公司与外洋数据库公司的差距较小,拥有赶 超远景。
https://p3.pstatp.com/large/pgc-image/d8443662aa164cbfac8f1e17a3badeb4
重点公司数据库业务梳理(详见陈诉原文)
阿里巴巴:凭借领先的云技能,分布式数据库大放异彩。
腾讯:围绕 TDSQL 系列,提供领先的分布式数据库服务。
华为 GaussDB:与 AI 深度融合,拥有异构盘算创新架构。
PingCAP:聚焦开源分布式 HTAP 数据库 TiDB。
星环科技:大数据底子平台综合服务商。
巨杉数据库:以分布式 SequoiaDB 为核心,聚焦金融行业。
人大金仓:政务大数据龙头,与军工范畴深度互助。
武汉达梦:背靠 CEC,善于混合型数据库开发。
海量数据:数据库、数据盘算、数据存储一体化服务商。
南大通用:国内份额领先,围绕 GBase 与云技能积极结合。
科蓝软件:专注银行市场,拥有内存数据库 Goldilocks。
万里开源: MySQL 中国的白金认证互助伙伴。
风险因素
(1) 数据库国产化希望不及预期 (2) 数据库技能发展不及预期 (3) 行业竞争加剧。
(本文仅供参考,不代表我们的任何投资发起。如需使用相关信息,请参阅陈诉原文。)
精选陈诉泉源:【将来智库官网】。
页:
[1]