数据社DataClub 发表于 2020-4-23 16:46:48

聊聊数据库

数据库的发展基本上也是伴随着计算机技术经历了40年的历史,从最初的文件体系上的文件,到有布局的层次和网状数据库,一直到今天被广泛使用的关系型数据库。随着互联网和物联网行业的兴起,数据量飞速增长,对大数据的收罗、存储和应用是每个数据库必备的技能。现在大多数应用都是数据存储密集型,而不是计算密集型。


数据存储发展

众所周知,文明的发展离不开信息的积累,而任何东西的积累离不开存储。因此,信息存储是文明发展的重要环节,从某种意义上讲,乃至可以说是人类迈入文明社会的标志之一。在历史上,人类曾经创造过很多信息存储的方法。我们一起来看下存储发展历程。
古老的东方开始使用甲骨文记载着自己的数据。
https://p9.pstatp.com/large/pgc-image/f4f13fa864f64d1c8cf4769f14211004

到了东汉,人们开始用纸张记载数据。纸的出现使得信息的记载、传播和继承,有了革命性的进步,促进了人类文化的传播。同时纸也为后来打孔卡的出现奠定了基础。
https://p1.pstatp.com/large/pgc-image/8717ef12bca64e70909f97a64eeb101c

到了近代有了打孔卡、磁带、软磁盘(记得小时间初中一年级见到的电脑好像是这种存储)、硬盘。以前大学上计算机课,总是听老师讲以前的U盘都是几M的,现在的U盘都有上百G的,而且很自制。
存储现在发展的已经很快,现在存储数据很廉价。而数据库的必备功能就是存储数据。
传统的数据库

传统的关系型数据库各人都接触的比力多,比如常见的Oracle、MySQL、PostgreSQL。数据库中每个属性都有特性的类型来界说,可以把数据想象成一个个表格存储着。和我们记载数据的认知非常相似,一行行记载着信息。
https://p1.pstatp.com/large/pgc-image/05f312af64074e0abd12a654c840e556

比方学生表里一条记载,就是一个学生他的属性描述,包括年事、性别、出生年月日、所属班级等。但班级也有它的更详细的属性,那就可以在学生表里增加一个关系字段来体现该学生所属的班级索引,通过索引连接到班级表,可以查到这个班级的年级、班主任、学生人数等信息。
NoSQL数据库

随着移动互联网时代的到来,必要存储的数据量越来越大,对机器的扩展要求成为了数据库的必备技能,这也是传统数据库的弱点,比如Oracle在做集群是很有限的。NoSQL对于数据库的扩展和高可用是它的强项。
那为什么NoSQL可以或许有可扩展和高可用呢?
我们都知道CAP理论,CAP理论指的是一个分布式体系最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。
https://p9.pstatp.com/large/pgc-image/fc1889cbb80b4249ae4fcc08fafc1786

分布式体系的一致性通常称为ACID,即原子性、一致性、隔离性、永久性,传统的关系型数据库都能做到。简朴的你可以理解一致性为数据写入数据库中,后续读取是否能立刻读取到更新的最新值。
另外,我们可以看到大多数NoSQL数据库都是“弱一致性”的,强调的是“最终一致性”,可以理解为如果你停止向数据库写入数据,并期待一段不确定的时间,那么最终所有的读取请求都会返回相同的值。换句话说,不一致性是暂时的,最终会解决。通过让体系放松对某一时刻数据一致性的要求来换取体系团体伸缩性和性能上改观。显然,NoSQL多数是用一致性来换取了可用性和分区容错性。那么捐躯一致性到底值不值得呢?举个例子,淘宝双十一当天,对于商品的评论和访问数大概不必要那么在意,首要是要包管服务器的高可用,崩了什么都白搭了!
新型数据库

在现实的应用中,存在一种场景,我们要求数据库必须包管ACID和高可用性,于是一批新型的数据库诞生了,比如蚂蚁金服的OcenBase和最近的“新晋网红”数据库TiDB。他们看似近乎完美的支持的分布式一致性和高可用性,支持标准SQL,对传统的关系型数据库提供迁移兼容方案。
还有一个数据库可以关注下,Vertica。很多人把Vertica划分到传统关系型数据库中,但是他与传统型关系库又有不同:

[*]Vertica是面向分析的而不是面向事务的,他的强项在于OLAP场景,对大量数据的读取和聚合体现强悍!
[*]Vertica是基于列存储的,列存储让数据的分割查询变的更加灵活
Vertica并不是一个广泛应用的数据库,我们上面提到了CAP理论,提到所有数据库不能同时满足“三性”,但是对于特性的应用场景设计,就能很大程度上在“三性”上取得均衡。
Vertica的原型称为“C-Store”,C-Store最早是2005年学术界的一个项目,作者是2015年图灵奖得到者 Mike Stonebraker,同时也是Vertica的创办者。
论文总结一下三点:

[*]数据库的查询瓶颈是在IO上,而不是在CPU上,那么用CPU时间交换磁盘带宽是有意义的。一般有两种途径用CPU时间交换磁盘带宽。第一种方法是采用高效的编码技术,比如存储一个客户的住址,可以用6bits来编码所有的US州名,如果采用州名缩写,则必要16bits;如果用全称则更多。第二种方法是浓缩存储的数据,比如把N个数据,每个K bits,直接打包成N*K bits。
[*]在物理上存储列的集合,每个集合都按照一些属性来排序。以同一个属性进行排序的列,组成projections。
[*]读写优化,构建WOS和ROS组件,用tuple mover联系它们


https://p1.pstatp.com/large/pgc-image/3de14ca6e0a94b2db6907c05d7a117ec

[*]
C-Store 应该是第一个将列存技术在现实体系中实现出来的,比Google的BigTable要早(公众号回复“列存储”,可下载C-Store和BigTable论文)。
我们怎么用数据库

着实以前的一些经典理论还是很有道理的,比如CAP、比如Raft呀,各个数据库还都是“术业有专攻”,别老想着用一种数据库打天下。比如,核心体系的事务数据还是选择使用MySQL或者postgreSQL。分析性数据库还是选择Vertica或者Greenplum。
页: [1]
查看完整版本: 聊聊数据库