CSDN 发表于 2020-12-30 21:05:16

剑指云内存数据库,阿里云在下一盘大棋

https://p1.pstatp.com/large/pgc-image/SKX1YKDD2VCY5A「The real battle will be in databases.」
在 2019 数据技术嘉年华大会上,阿里云数据库产物事业部总司理、李飞飞曾引用 AWS 首创人 Jeff Bezos 的话:数据库是企业云上的终极之战。在这终极之战中,阿里云无疑是国内数据库引领者:
据 Gartner 最新发布的 2020 年度全球数据库魔力象限报告,阿里云首次进入全球数据库领导者象限,这是中国数据库 40 年来首次进入全球顶级数据库队伍。
回顾汗青,阿里探索之路十分踏实,完备地从商用、开源、再到自研走出本身的数据库发展之路,历经条理型和网状型、关系型数据库时期,作为基础软件的“三驾马车”之一的数据库,将来还有哪些更多的可能性?
阿里将目光投向云数据库,现在在企业级云原生数据库赛道上,阿里推出云原生关系型事件数据库 PolarDB、分布式版 PolarDB-X;在 OLAP 范畴,推出云原生数据仓库 AnalyticDB、云原生数据湖分析 Data Lake Analytics;在 NoSQL 范畴,拥有云原生多模数据库 Lindorm 和内存数据库 Tair——100% 兼容开源社区版的 Redis。
“云原生内存数据库解锁存算一体”。在 12 月 13 日刚刚竣事的 2020 云内存数据库峰会暨 Tair 大赛颁奖典礼上,李飞飞如是说。为何他云云说?云原生内存数据库在企业实践如何应用?本日我们从阿里云的角度下,纵观云原生时代,内存数据库的已往与将来。
https://p1.pstatp.com/large/pgc-image/SHY81DA2rxF8hA云原生重新构建下一代数据库
据 IDC 发布《数据时代 2025》报告显示,全球每年产生的数据将从 2018 年的 33ZB 增长到 2025 年的 175ZB,平均天天约产生 491EB 的数据。据最新数据统计,到 2025 年,中国数据总量预计将跃居世界第一,全球占比达 27% 以上。由于浩繁业务场景有数据及时在线化处理需求,到 2022 年,50% 以上业务将采用及时处理数据方法支持业务在线化,给数据库带来不少挑战。
正值数据爆炸时代之际,企业和开发者面对前所未有极速增长的数据外,现在数据结构愈发多样,非结构性数据占比将会大幅度提升。据李飞飞先容,从字节数的比例来讲,非结构化数据占比达 50% 以上,同比增速为 50% 以上。李飞飞信赖,在传统针对结构化数据的关系型数据库市场外,肯定有更大针对半结构化数据的非关系型数据库市场,将半结构化、非结构化数据的处理及时在线化。
回顾数据库的发展,从早期的结构化数据 OLTP 场景,到大量数据必要做在线分析,由此衍生出传统数仓。时间滑到 2000 年,大数据生态诞生,但由于其时的非关系型数据库和数仓没有举行海量并行分布式处理的本领,于是谷歌“三驾马车”诞生,奠定大数据生态的基石。
现在来到云时代,大数据和数据库的技术边界变得越来越含糊,假如我们要将数据处理一体化,数据处理及时在线化,那么离线、在线边界将变得越来越含糊。这背后关键推手是云盘算,即用虚拟化的技术实现资源池化。
由于传统数据库是紧耦合的设计方式,雷同于以前各家用水时是在院子里打水井使用,但水井的容量是有限的,水不够了怎么办?资源使用方式没有半点弹性。
来到云原生时代,我们将一百个水井底部买通,表面看是一百个独立的水井,但底下是连在一起,资源已池化,每个水井都可以弹性使用这些池化资源。这是云盘算的本质西,存储盘算分离,盘算资源隔离,实现资源池化。
阿里云综合多元异构数据处理、分布式技术、云原生的本领,来打造下一代 Tair 内存数据库体系。
放眼全球,阿里云数据库体现优异,当前在云数据库赛道上营收位于全球第三,在中国关系型数据库市场份额排名第一。
“这不光是阿里云的突破,同时代表中国这几十年来,尤其是云盘算兴起后,中国在数据库范畴丰富的经验积累,厚积薄发的效果。”李飞飞说道。
https://p1.pstatp.com/large/pgc-image/SHY81MS5s0BNFE进击的阿里云内存数据库
回顾云内存数据库的发展进程,可以分为传统缓存、内存数据库、云原生内存数据库三大发展阶段。
回顾缓存时代,其定位简单,即使用内存的访问速度举行加速,缓存加存储二次结构,该时期诞生 Redis、Memcache 等风靡全球的开源缓存层。
但仅做缓存加速是不够丰富,随着企业场景的迭代和丰富,我们必要支持更加丰富的盘算、企业级本领(如长期化等),内存数据库由此诞生。来到云原生时代,云内存数据库可提供更好弹性、更低成本、更方便的使用方式来提供高效内存的数据、智能化存储本领,做到“盘算存储一体化”。
为何是云内存数据库能做到?
据李飞飞分析,传统内存数据库有三大瓶颈挑战:
第一成本,内存是所有存储组件中最昂贵的部分,其成本肯定是用户选择内存数据库首要的考虑条件。
二是弹性,无论是缓存还是内存数据库,环顾本日市场上提供的所有办理方案,其缓存设置的现实弹性不足,如用户选择 8G 内存,很难在线的情况下灵活调解内存的大小,如将 8G 调到 9G、10G。通常难度较大根据业务波峰、波谷厘革来及时调解和使用弹性部署不同容量的内存,其弹性本领是受到限制的。传统内存数据库的盘算和存储是紧耦合,并没有解耦。
三是盘算本领。上文提到,非结构性数据的占比达 80% 以上。这些数据必要更丰富的盘算本领,而不是简单的传统结构化数据点查询、聚合查询。必要进一步做向量分析、向量处理,向图数据类型临近点分析等处理。
四是企业级本领。随着企业业务逻辑快速变动,必要通过企业级本领(如长期化、智能分层存储等)来应用对在线数据访问的关键路径需求,如异步访问、同步访问等。
如何办理这些挑战?
“仅从软件、算法层面的突破是不够的。”李飞飞强调。因为首先数据库是体系,早年他学习体系时,“System”翻译成中文就是“高效、安全、可靠地使用有效的硬件资源——体系”。所以我们首先要办理硬件资源,李飞飞举了个通俗易懂的例子:所谓“巧妇难为无米之炊”,“巧妇”即你的算法、软件体系,但用什么样的米(硬件)来做饭,做出来饭的味道就是不一样。所以我们要根据硬件发展特点设计来优化软件体系。
根据以上分析,阿里云在部署云内存数据库时从以下维度来入手:
一是极致弹性,无损扩缩容。如将存储、内存池化后,可根据业务的波峰波谷做弹性厘革,如从 8G可调到 9G、10G,从 10G 无缝弹回 8G、6G。在做弹性时需做存储盘算分析解耦,如许可以做到更低的成本,让用户不必要为峰值买单。在传统结构下,没办法不按照峰值容量部署,其使用成本高。现在来到云时代,资源池化、资源解耦后可按需按量使用,用户只需像使用自来水一样,按需按量付费即可,可大幅度降低成本,还可消峰填谷,可用多租户的技术实现消峰填谷。
二是盘算模子,非结构数据下,新一代云内存数据库需支持图盘算、文本盘算、图片盘算,因此我们需提高对压缩处理、向量处理、矩阵处理等技术。由于在深度学习范畴,许多非结构化数据本质上是非向量化,用特征提取酿成向量。阿里云研发 Tair Graph Database 来支持对图数据海量在线及时的处理。
三是企业级本领,Tair 拥有全分布式、数据闪回、数据洞察、热门打散等本领。其中全分布式可部署在多个AZ,数据 跨 AZ 及时同步和部署,并多点读取,实现就近内存数据的访问和跨域跨 AZ 容灾。在一些视频场景里存在突然爆发的热门,因此 Tair 及时热门打散本领,可对在线教诲、在线游戏、出海等业务提供非常好的支持。
四是安全,一些企业和金融机构对数据安全要求较高,Tair 在传输和通讯都使用标准的加密和协议举行掩护。
此外,随着开源之火席卷全球,MongoDB、HBase 等开源数据库生态建设敏捷,开源将是云内存数据库新将来吗?
拥有 25 年开源经验的阿里云智能基础产物事业部技术战略总监陈绪表示,“开源兼容的数据库将成为将来的方向。”
陈绪进一步分析道,现在云数据库有自建和使用贸易服务这两种模式,可简单分为有钱没时间的人和有时间没钱的人。对于第一类人来说,由于会聚焦本身的业务应用和场景,通常会选择 Tair 等数据库,既可以满足需求,又无需考虑数据库维护工作。对于第二类人而言,公司在举行自主部署过程中,如果直接拿开源社区的代码,将付出许多意想不到的艰苦研发工作,包含产物迭代、备份、两地三中心等。陈绪认为,从恒久来看,这两类产物在阿里云将会共存,而开源是基于标准建立生态的一种手段。
https://p1.pstatp.com/large/pgc-image/SHY81PxGdXf8B5Tair 解锁存算一体
Tair 不是新产物,最早是为支持双十一,阿里完全自研的产物,目前已连续 12 年稳固支持天猫双十一,峰值访问 15 亿每秒。
履历十余年阿里真实大规模数据场景的锤炼,Tair 联合最新英特尔傲腾芯片,可支持游戏、电商、风控、政务、通讯、物理网、社交等不同范畴的应用场景。
例如在内存在线处理上,当前在线教诲、在线游戏场景下,有明显超大的容量、非常容易爆发的热门,可将单节点击穿。另外,这些场景对数据回滚、归档的要求较高,也需对数据及时在线监测,做报警预告。使用上文的 Tair 企业级本领均可较好支持这些业务的需求。如对任意时间节点恢复,对数据洞察,由于 Tair 100% 兼容开源社区版的 Redis,可达到两倍以上的性能提升,将数据归档备份从小时量级降到分钟量级,数据分析本领可以让排查服从提升十倍甚至更高以上。
例如,南瓜电影使用 Tair 企业级功能实现数据多地域同步,为 3000 万终端用户带去较极致的体验。
在安全风控上,在淘宝、天猫、饿了么等阿里内部应用场景可见到 Tair 的身影。由于在线风控要求及时性非常高,一旦发现异常用户、异常账号等行为,如果不是及时在线及时发现,事后亡羊补牢是不足的。我们将 Tair 企业级本领和云原生本领联合起来,可低成本、弹性地提供对风控及时在线的要求。Tair 对多模子盘算本领的支持,如 Tair GDB 对风控场景有较好的支持。
阿里云信赖下一代 Tair 将解锁存算一体,实现真正存储盘算在内存层面的一体化。
除了将 Tair 等本领赋能给企业客户外,据陈绪先容,阿里云积极与生态同伴携手合作,致力做“世界最新科技的集大成者”。例如和英特尔等上游厂商保持密切互动,关注新技术动态,从应用场景分析如何将技术赋能给用户。
2019 年,在云栖大会上,阿里云和英特尔共同发起“领航员”计划,充分发挥将阿里云在云盘算的优势和英特尔在智能盘算的优势,共同强化技术创新。在2020的云栖大会上,“领航员”2.0 计划启动,并公布阿里与英特尔的最新技术创新希望,如共同开发云原生软件、推出多个基于英特尔傲腾长期内存的云实例等。如 最新发布的阿里云长期内存型实例,就是源于“领航员”计划的创新。
陈绪表示,雷同上述的新型技术,将通过各种途径和方法分发给用户和合作同伴,让技术在持续演进的“练兵场”上得到实践,更快到达公共云上的用户。
https://p9.pstatp.com/large/pgc-image/SHY820SGmoZHY7云时代下,阿里云内存数据库新飞跃
云原生时代下,阿里云如何进一步加码内存技术?
陈绪首先表示“狭义的云原生是落后的概念”。他进一步增补道,本质上“云原生”即为云而生,在云上生、云上长。当前有许多硬件和软件创新是为云准备,没有云根本它们不必要改变,所以假如这个软件或者硬件的出现是为云而诞生,便可称为“云原生”。以阿里云自研的“神龙架构”为例,如果以当前大众的理解,似乎不是涉及云原生,但在他的理解里神龙架构即为云原生硬件。
基于此,在本次 Tair 大赛中,我们看到阿里云在云时代下,继续加码内存存储,最新推出长期内存型实例是目前全球唯一提供 VM 级别产物的。
据陈绪先容,最新发布的阿里云长期内存型实例基于阿里云神龙架构,虚拟化开销为 0,盘算性能优异。支持 ESSD,可将 AEP 作为 ESSD 的上级缓存,让应用数据流更顺畅,性能更优异。Alibaba Cloud Linux 2操纵体系原生支持,并在 Redis 应用场景下做针对性优化,性能比搭载社区版操纵体系提升 20% 以上。
此外,该长期内存型实例基于 英特尔 傲腾长期内存,可将长期内存配置为平凡内存,单 GB 成本降低 35%,并用在 Redis、参数服务器等内存型数据库应用上。还可作为平凡 SSD 使用,实现超高的性能,据陈绪先容这是当前世界上性能最好的磁盘介质,延时低至 400ns,IOPS 超过 100 万。对于重 IO 的应用来说,如核心的交易业务体系、游戏前端具备极大的优势。
谈及云原生内存数据库的将来,陈绪表示,作为云原生数据库的新形态,阿里云内存数据库必将为 IO 密集型应用带来质的飞跃。

武汉汉街可能最不帅 发表于 2020-12-30 23:53:24

为阿里点赞

wxf190863955 发表于 2020-12-31 06:48:54

阿里真是数据垄断之心不死[捂脸]

AT8TA 发表于 2020-12-31 15:04:03

云内存,听起来像云手机

iCreos 发表于 2021-1-1 02:15:52

阿里呵呵

坚哥2021 发表于 2020-12-31 20:11:12

牛逼

用户5160096773526 发表于 2021-1-1 00:11:09

阿里走向世界之路越走越宽广

用户3249928955244 发表于 2020-12-31 14:04:37

阿里云真的了不起!

用户3476905000493 发表于 2021-1-2 13:32:22

阿里云计算,先进技术水平,全球排名前三。

用户5160096773526 发表于 2021-1-1 00:11:45

用实力证明自己,阿里好样的
页: [1] 2
查看完整版本: 剑指云内存数据库,阿里云在下一盘大棋