图数据库:基于关系网络的非关系型数据库
本文核心要点:1、图数据库是基于关系而搭建的数据库,有可扩展性、易读性和快速的基于关系查找的本领;
2、目前主流的图数据库是Neo4j、Cosmos DB,国内以阿里、腾讯为首的互联网巨头,在2018-2020年均根据自己的业务搭建了图数据库产品;
3、图数据库创业企业欧若数网、费马科技、创邻科技、蜀天梦图等企业得到了顶级VC、互联网巨头、传统数据库的投资,目前在A轮左右;
4、图数据库还处在发展初期,目前紧张应用场景是社交网络、推荐算法、知识图谱、金融风控,但目前图数据库还没有标准的查询语言、在具体场景下的应用还没有标准化。
随着我国国产化战略的实行和更多的资金投入,国产数据库在中国的占比从 2017 年的 16.5%上升到了 2020 年的近 50%。根据信通院测算,2020 年国产数据库规模约 241 亿,年复合增长率 23.4%。
这其中,传统国产数据库、云数据库和新型数据库创业企业都在努力提拔技术程度和商业化本领,也受到资本方的关注。开源生态助力数据库的发展,分布式数据库、非关系型数据库、云数据库等概念渐渐落地成具体场景及应用。
本文从数据库发展的角度入手,解析图数据库的特点与技术,分析中国互联网企业的图数据库布局,及创业企业图数据库格局,探究图数据库未来的发展与应用。
01
数据库行业分类
按照存储类型分别,数据库紧张可以分为关系型数据库与非关系型数据库。
传统的关系型数据库是指建立在关系模子基础上的数据库,借助于聚集代数等数学概念和方法来处理数据库中的数据。关系型数据库采用了关系模子来组织数据,其以行和列的情势存储数据。基于「表」的关系型数据库,有着横向可扩展性差、并行处理事务本领较低的缺点。
为了满意更多的高并发数据处理需求,以及更多元的数据存储、筛选需求,出现了多种非关系型数据库。非关系型数据库是对区别于传统关系型数据库的统称,也即不依赖于「表」的存储方式的数据库。目前盛行的非关系型数据库紧张有,键值存储、列存储、文档存储、图数据库等。
https://p5.toutiaoimg.com/large/pgc-image/06035a112c6e453db0d420dee0cf43be来源朋湖网
Gartner 在 2019 年的数据与分析峰会上预测 2020 年以后,全球图处理及图数据库的应用市场都将以每年 100%的速率迅猛增长,《2021十大数据与分析技术趋势》中又提到「到 2025 年,图技术将用于80%数据与分析的创新」。根据数据库盛行度排行榜网站 DB-Engines的数据显示,图数据库的关注度增速远超其他类型的数据库。
在中国,虽然图数据库的公司成立都只有短短三四年,但均得到了来自顶级VC、互联网巨头、国产数据库巨头的投资。是近年来信创版块最值得关注的赛道之一。
https://p26.toutiaoimg.com/large/pgc-image/8cffa9fa892a45dea533ecdba14e9669(图片来自DB-Engines)
02
图数据库的劈头与技术
图数据库虽然属于「非关系型数据库」,但却是真正注重「关系」的数据库。
图数据库劈头于20世纪70年代,区别与传统关系型数据库以「表」的方式存储、以「代数」的逻辑计算,图数据库是以「图」的方式存储「图论」的逻辑计算的。图数据库使用节点和边来存储数据库,节点表现实体、边表现实体之间的关系。通过这样的结构通常可以模仿事物之间的关系。
图数据库的紧张上风在于可扩展性、可阅读性、高效的基于关系查找的本领,以及较好的及时处理本领。
图数据库的发展紧张来自于企业在存储和计算数据时候对表达数据之间「关系」的需求。在传统以「表」情势表达的数据库中,假如想要增长单条数据与数据之间的关系,则需要横向增长一列,工作非常繁琐;假如想要增长数据属性与属性之间的关系,则几乎无法做到。但在图数据库中,实体与实体之间通过「边」来接洽,增长数据与数据之间的接洽非常容易。
https://p6.toutiaoimg.com/large/pgc-image/8c2fcca03f2040dea747371c2ccf950a图片来自https://pixabay.com/
在做数据查询的时候,图与表的差异更加巨大。尤其是在多步查询中,图数据库的上风明显。以推荐算法为例:
一步查询「该用户浏览过的文章」,在图数据库与传统数据库中差异不大。
两步查询「该用户好友浏览过的文章」,在图数据库中可以直接找到这位用户的好友,再找到这些用户浏览的文章;但在传统数据库中,需要先查询到这位用户,再在用户的属性里找到好友,再通过好友作为关键词查找他们浏览的网页,在第二步的查找中就有了许多冗余。
三步查询「与该用户浏览过同一篇文章的人所阅读的其他文章」,在图数据库中就是用户-本文章-其他用户-其他文章;但在传统数据库里就已经几乎很难实现了。
https://p9.toutiaoimg.com/large/pgc-image/008aa507d159491aa95d9d8c61c966f2来源网络
比如在上图中,可以向小强推荐共同喜欢《一个青年艺术家的画像》的小刚所喜欢的书《尤利西斯》。
与传统数据库同等,图数据库根据功能类型分别可以分为OLTP与OLAP。OLTP(Online Transactional Processing) 是事务型数据库的缩写,通常通过线上进行,需要处理的数据量较小、操作较为简朴。OLAP(Online analytical processing) 分析型数据库则需要处理较大的数据量,一般会在本地进行。
传统数据库在发展过程中还研发出了HTAP (Hybrid Transactional/Analytical Processing) 混合型数据库,以同时满意事务型和数据分析型的需求。但目前主流的HTAP的架构是通过不同数据结构的存储引擎分别负责事务和分析两部分工作,通太过布式的方式存储在不同的位置。可以看到,这样的存储方式虽然在应用层面可以同时满意事务和分析的需求,但两部分需求本质上还是分开运行的。
目前看来,市面上还没有真正HTAP,还没有系统支持在TP中执行AP的场景。这紧张是因为需要执行TP和AP计算的数据存储方式不同,整合起来复杂性较高。而在图数据库的应用中,对OLTP与OLAP融合的需求更大,因为在关系型场景下有更多的功能需要通过用户当下的行为(OLTP)与过往数据(OLAP)同时计算而成。
仰赖于开源生态与云计算基础建设、分布式存储技术,图数据库还在继续飞速发展。
03
国内外图数据库企业
根据DB-Engines本年九月的排名,目前中国图数据库企业上榜三家,分别是排名第15欧若数网的Nebula Graph、排名第26百度的HugeGraph、排名第30华为的GraphBase。
https://p26.toutiaoimg.com/large/pgc-image/f8db31a65d364a28a546a83f4a55facd图片来自DB-Engines
目前图数据库使用量和市场占有率第一的公司是Neo4j。公司成立于2007年,于2010年2月发布第一款图数据库产品。Neo4j采取开源的模式,提供企业版和社区版两个版本选择。在功能上,企业版可以摆设成高可用集群或因果集群,从而可以解决高并发量的题目;支持容灾、热备份、全部内核使用等。2018年11月,Neo4j产品副总裁Philip Rathle公布,从 Neo4j 3.5 版本开始,企业版将仅在商业许可下提供,不再在GitHub上提供源代码。
目前排名第二的数据库Cosmos DB是Microsoft Azure在2017年推出的产品,数据库功能包括非关系型数据库图、文档、键值等类型,是云数据库的先行者。基于微软云自有的客户与基础设施上风,以及对与各种现有API的支持(Core SQL、Cassandra、MongoDB)带来的便捷性,Cosmos DB迅速发展。
主打原生并行图计算的新一代图数据库TigerGraph成立于2012年,历时整整五年的时间才发布了第一款图数据库产品。在Neo4j公布闭源之后不久,TigerGraph于2018年12月公布将TigerGraph GSQL三大类十个核心算法开源,并陆续推出了一些可视化工具。在TigerGraph看来,支持的数据规模和查询速率是图数据库的核心竞争力,而TigerGraph也在继续在及时深度关联分析的应用领域深耕。
放眼国内的企业,各大互联网公司纷纷根据业务需求搭建了自己的图数据库产品。
04
国内图数据库创业公司
随着国产化的加速,市场上产生了一些图数据库创业企业。虽然这些公司成立时间不长,但均得到了来自顶级VC、互联网巨头、国产数据库巨头的投资。
https://p3.toutiaoimg.com/large/pgc-image/f9c85dc97aa8400f98b322c19d60e433来源朋湖网
完全自研的图数据库需要较长的研发时间,与TigerGraph相似,国内的创业企业发布第一款图数据库产品均经历了数年,图数据库产品的发布紧张集中在2018年及之后。这其中,数据库产品依旧以从老的技术方案上嫁接图数据处理的方案为主。
目前创业公司的图数据库应用领域紧张是社交网络、知识图谱、金融风控等,客户群体集以世界五百强及大型互联网企业为主,整体的渗透率较低。
在开源和商业化选择方面,目前世界范围内开源图数据库占比68.4%。以欧若数网所研发分布式图数据库Nebula Graph在2019年发布第一个版本时就公布开源,并通过开源社区的建设,逐步完善代码库。一般来说,国内云厂商提供的开源数据库的商业模式是「软件开源+私有云托管」的方式,也即「产品开源、服务收费」,但在2B底层技术领域,很少有以创业公司引领开源生态的案例。
从融资环境来看,目前的几家创业公司大多处在早期阶段,以A轮为主,有自研的产品和一些场景下的商业应用。各家公司的投资均来自着名科技类风投、头部互联网企业或传统国产数据库企业,可见赛道被资本看好,未来有较好的发展。
对于头部互联网企业来说,图数据库创业企业所提供的图数据库技术与互联网企业所提供的底层云计算、服务器等互相融合,可以降低企业的选择成本,为企业提供更完善的服务。如2020年5月创邻科技与腾讯云达成战略合作,在金融、能源、政务等腾讯云的强势行业里更巩固了市场。
对于传统国产数据库来说,投资创业企业可以或许完善自身在数据库领域的布局。如达梦数据投资的蜀天梦图,于2021年6月通过了信通院图数据库基础本领专项评测,为传统数据库在更广泛的国产化方面赋能。
05
图数据库的应用与未来发展
就目前来看,图数据库由于其关注「关系」、可扩展性等特点,紧张应用于推荐算法、社交网络、知识图谱、金融风控等领域。而随着商业化产品对「关系」网络的依赖更加深入,图数据库在未来还会有更广阔的应用空间。
如前所述,推荐算法是目前图数据库最常见的、也是最成熟的应用领域,更实际的应用场景是电商和媒体的内容推荐。以电商为例,推荐算法需要顾及到用户、商品、库存、网络舆情等方方面面。假如使用传统关系型数据库,数据往往滞后一天,无法及时、精致、针对化地建模。而基于图数据库则可以整合复杂的多元数据、做到多步深链分析的遍历和查询,并且几乎能及时响应。
而对知识图谱而言,图数据库从展示到使用方式都与其有着自然的适配。知识图谱本质是一个图结构的语义网络,定点表现概念或实体,边表现这些概念的接洽。为了从各种数据孤岛中整合数据并创造代价,许多企业开始创建和使用知识图谱。与传统的数据库相比,图数据库在知识图谱领域的紧张上风在于搜索结果更精准、能更直观地展示其关联性、速率更快更便捷。比如政府机构、培训机构、咨询机构、技术产品等领域都是未来知识图谱的紧张应用领域。
在金融风控领域,传统的反诓骗系统紧张针对独立的企业进行分析,数据量大且分散,应对突发环境、新威胁的时候无及反馈。使用图数据库可以更好地将繁杂的数据建模,并进行处理。目前金融风控的紧张应用领域有保险、电信、医疗等,未来在《数据安全法》的掩护和隐私计算的技术下,图数据库还将会在风控反诓骗领域有更多的实践可能。
然而目前图数据库还在刚起步的阶段,在技术和应用场景方面另有漫长的路要走。
起首,目前图数据库还没有标准化的查询语言。目前主流的语言有三种,包括Gremlin(支持Cosmos DB、Amazon Neptune等)、Cypher(支持Neo4j等)、nGQL(支持Nebula Graph等),虽然许多图数据库也是基于这些开源产品开辟的,但几种数据库及语言都还没有融合的倾向,只能由数据库开辟者基于新开辟的数据库提供这几种语言的API接口以适配多种语言。
其次,目前图数据库在具体场景的应用还没有标准化,通常单一摆设的图数据库只能实现单一的业务场景,还没有针对行业或全行业的通用产品,数据库的摆设和使用效果非常仰赖项目经理和工程师的技术。
面对全球巨大的人口和天天新生产的数据,无论是金融、社交还是内容,数据分析所面对的数据量级都在不停提拔。与此同时硬件方面也在不停地更新,GPU、FPGA、ASIC及异构芯片能带来更好的算力,怎样使用这些性能、建模成更适配性能和数据的产品,也是对图数据库产品的挑衅。
图数据库或数据库的最终目的是为了赋能业务。图数据库的上风在于与业务现实更为靠近,怎样使用图数据更好地将现实世界抽象为图数据的语言表达,更好地赋能应用,还需要图数据库厂商在具体的每个实践中继续探索。
参考资料:
[*]艾瑞咨询《2021年中国数据库行业研究报告》
[*]中国信通院《2021年数据库发展研究报告》
[*]清华大学AMiner《人工智能之图数据库》
[*]InfoQ直播运动《图数据库的劈头、应用与未来》
页:
[1]