创意电子

标题: 写给新人的数据库入门指南 [打印本页]

作者: 数据分析不是个事儿    时间: 2019-2-27 14:48
标题: 写给新人的数据库入门指南
此文是《10周入门数据分析》系列的第5篇。
想了解学习路线,可以先行阅读“10周筹划”
公中号上已更新到第11篇,详情可见文末。
上周更新了两篇Excel学习,有读者反映写得不够实操。这里解释下,文字真的很难将每一步细化,不然真的要出一本书。文章更多是一个引路,告诉大家为什么要学这个,主要学什么,怎么学?深入的操作,还需大家业余加餐啊,已经只管给大家留了材料了。
也有人提议,出个视频,不错!很赞!明年筹划下。即使没有时间,我也会推荐一些我以为OK的视频让大家学习。
年底了,近几个晚上都在苦熬年终陈诉,各位写好了么?
好了,回到正文,本篇讲数据库知识:
经常有刚从事数据分析的职场萌新,问我做数据分析工作要学些什么,应该怎样规划学习路径。我会告诉他:如果你Excel还用的不溜的话,就先学学Excel,当你用Excel处置惩罚和分析一些小数据集没有问题的时间(详细表现就是:常用函数公式信手拈来,数据透视表,筛选,排序,图表绘制操作熟练),你就去学习SQL语言,然后用BI去分析去熟悉业务。然后到了一定阶段,你可以上手R大概Python。后面如果你能更进一步,可以去了解一些Spark等大数据框架。
为什么要学习Excel?
首先Excel是我们最常用的数据分析和处置惩罚工具,Excel的功能非常丰富,根本可以涵盖我们在之后在其它软件(SQL、BI、Python、R)中要学到的那些功能。
有的人可能会问,既然Excel这么强大,为什么还要学其它的工具?这是因为Excel是通过菜单的形式来进行操作的,很难实现自动化和功能复用,当然你也可以通过VBA来实现,用VBA也就是编程了,不过因为VBA这种语言学会了根本只能在office软件中使用,学习的投入成本和产出收益不成比例,不推荐学习,这是客观原因之一;别的就是Excel在处置惩罚比力大的数据集的时间,性能很差,而且经常崩溃。(虽然Excel2013及以上版本宣称可以容纳100+万条记载,但几万条数据就开始卡顿了)。
为什么Excel学完要学SQL?
客观原因是绝大部分数据分析岗都有SQL技能的要求。企业里面为了保证数据的安全性和管理的方便,数据都是统一存放在数据库中,从数据库中提取和查询数据需要使用SQL语言,乃至有的公司就是用SQL语言来做数据分析。
别的一个原因就是即使你先学了其它的工具,好比R,Python,乃至Spark等大数据框架,你会发现末了你还是得学习SQL。如果你先学习SQL,那么很多概念你都能在学习R,Python,Spark等更加复杂的工具之前弄清晰。对于后面的学习会有帮助。这就好比建房子,都是先打地基,然后一层一层的盖。
SQL语言的学习排在Excel之后,其它工具之前,还有一个很重要的原因就是,SQL可以在一定水平上帮Excel办理大数据集的问题,同时架起一个通往其它工具的桥梁。
关于数据库和SQL的学习,也是分为两篇,第一篇讲数据库以及表的概念。第二篇是SQL语句的掌握和数据库的操作。
一、数据库基础知识

先谈一下我对数据库的理解。数据库顾名思义就是数据的集合,是由一张张数据表组成的。
放在物理实体上,是一堆写在磁盘上的文件,文件中有数据。这些最基础的数据组成了表(table),我们把它想象成一张Excel的sheet,如下图:

                               
登录/注册后可看大图

每一张表都有一个唯一标识,即主键,也就是ID。ID是数据库中重要的概念,叫做唯一标识符/主键,用来表示数据的唯一性。就相当于我们的身份证,是唯一的,有了身份证,就知道数据在哪了。
ID通常没有业务含义,就是一种唯一标识,每张表只能有一个主键,且主键通常是整数,主键一旦设立,值通常不允许修改。
数据库是表的集合。一个数据库中可以放多张表,我们给每张表命名,表与表之间能互相联系。联系就是数据可以或许对应匹配,正式名称叫联接,对应的操作叫做Join,我们想象成Excel中的vlookup。

                               
登录/注册后可看大图

好比上面两张图,左图是门生信息表,右图是老师信息表。左图的主键是门生ID,右图的主键是老师ID。细致的读者可能发现右图还有一个门生ID,这里的门生ID是专门用来联接用户表的,它并不是主键。只不过两张表通过门生ID这个唯一信息来关联。
但两张表关联也并不是信息能一一对应的,也会存在空缺的时间,好比:

                               
登录/注册后可看大图

那两表建立毗连就会变成:

                               
登录/注册后可看大图

了解上面的概念,你就知道什么叫关系型数据库。简单说,它是由多张能互相联接的二维行列表格组成的数据库。在数据准备时,我们通常要建立表关联来分析。
关系型数据库是基于关系代数模型发展而来,常用的关系型数据库有SQL Server、MySQL、Oracle、DB2等,这个视企业使用为准,我们后续学习都以MySQL为主。
各关系型数据库(不感兴趣可跳过):
DB2: 关系型数据库, 适用于大型的分布式应用系统, 确实是非常非常好的数据库, 无论稳定性, 安全性, 恢复性等等都无可挑剔, 而且从小规模到大规模的应用都非常适合。但是使用起来以为非常繁琐, 安装的时间要求颇多, 很多软件都可能和DB2产生冲突, 因为一般DB2都是安装在小型机大概服务器上的, 所以在PC上安装很费事儿。新建一个库需要设置很多东西, 分配各种各样的存储空间。
Oracle: 是目前市场占有率最大的数据库, 我在学习SSH的时间用的就是Oracle, 安装起来很繁琐, 而且居然程序文件有3G之多... 用起来非常方便, 对于我这样的初学者, 有很简单的配置, 对于要求很高的企业级应用, 也有很复杂的配置和管理方法, 有很强大的数据字典, 可以说是最实用的数据库了, 但是查了一下, 价格不菲...
MS SQL: 当初用的是2000和2005版, 这两个版本差了很多。2000的数据库做的不错, 程序很小, 操作简单, 功能较全, 算是各方面都很中庸的数据库吧, 是中型数据库, 我的毕业计划就是用MS SQL 2000做的。2005中加入了很多功能, 复杂多了, 有大型数据库的风范了, 而且价格也变高了, 个人以为除非用的是Window Server 系统大概针对Microsoft产物, 否则不如用Oracle好。
MySQL: MySQL是一个很好的关系型数据库, 免费, 而且功能很全, 程序又小, 安装简单, 现在很多网站都用MYSQL, 在字段约束上做的差了点儿, 其他的都不错, 和MS SQL 用着差不多。
Access: 典型的桌面数据库, 以为做个单机系统, 好比记账, 记事儿什么的还成, 在局域网里跑个小系统都够呛, 数据源毗连很简单, 因为是Office的数据库, 所以Windows自带数据源。
更多关于数据库的知识,看一本《数据库系统概论》就够了。
二、尝试使用MySQL数据库

如果还没有接触过数据库大概说SQL,推荐大家下载并安装MySQL数据进行尝试,MySQL数据库的下载安装比力简单,安装完成就可以使用。
可以访问MySQL官网进行下载,网址如下(这里给出的是Windows版下载所在):

                               
登录/注册后可看大图

下载MySQL时,需要进行免费注册,注册页面是英文的。下载该工具后,点击运行,这个程序就可以或许联网自动为你安装MySQL,并自动进行配置。在安装过程中,需要你设置密码,自己设置一个登陆密码,并记着,下次登陆MySQL时,需要这个密码。
解压之后没有my.ini文件(我的端口设置的3308),截图中是我增长的。

                               
登录/注册后可看大图

管理员命令行:
在MySQL安装目次的 bin 目次下实行命令:
mysqld --initialize --console
得到如下效果:

                               
登录/注册后可看大图

看到有个警告,查了一下mysql建议使用utf8mb4
修改my.ini文件

                               
登录/注册后可看大图

警告没有了,上面打印了默认密码:nj>uUJkpH4/I
然后,安装服务:
mysqld --install MySQL8.0
因为这是电脑上第二个mysql 所以服务名改成了 MySQL8.0

                               
登录/注册后可看大图

启动服务:
net start MySQL8.0

                               
登录/注册后可看大图

修改初始密码
登录mysql之后实行:
ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '123456';

                               
登录/注册后可看大图

将MySQL和Excel大概其它数据分析工具毗连起来
默认安装的情况下,有一个插件允许MySQL数据库和Excel相毗连,试想一下,我们在MySQL数据库中通过SQL语言进行大量数据的处置惩罚和计算,将计算效果存放在特定的数据表中,再通过Excel毗连上MySQL数据库,将数据读取到Excel中,用Excel进行分析并绘制图表,免去了将数据从数据库导出再导入Excel的麻烦,是不是就可以提高效率了呢?
后面会分享一篇通过ODBC驱动程序毗连一些报表\BI工具来做分析的操作。
关于MySQL的学习推荐册本《MySQL必知必会》。
关于学习筹划

近期,我的公众号【数据分析不是个事儿】在策划《10周入门数据分析》系列文章,教课书式手把手教大家入门数据分析。
本文是系列中的第5篇,公中号上已更新到第11篇。
可以戳下“了解更多”前往关注。
作者: 和excel一起嗨    时间: 2019-2-27 18:28

作者: 只服光伏    时间: 2019-2-27 19:10
好东西
作者: Axin181271888    时间: 2019-2-27 21:53
最近很想知道sql跟excel应用的一些实例。
作者: 社会契约论学者    时间: 2019-2-28 08:34
忙过这一段,报个班学习下。
作者: 靓绝五台山    时间: 2019-2-28 11:21
plsql+oracle好用
作者: 狼带旺眼看    时间: 2019-2-28 12:43
转发了
作者: 米卡其113    时间: 2019-3-4 20:25
转发了
作者: kk男    时间: 2019-4-21 01:39
准备学mysql,公司需要
作者: 行走的夏小陆    时间: 2019-4-25 09:49
转发了
作者: K楚春秋    时间: 2019-4-26 23:58
转发了
作者: 假面舞者13996931    时间: 2019-4-30 14:16
转发了
作者: 都吕布    时间: 2019-5-30 12:52
通俗易懂,我这个门外汉都看明白了[赞]
作者: qzuser    时间: 2019-7-11 22:13
转发了
作者: 笑笔如刀    时间: 2020-1-5 20:14
简单sql语句怎么学习?需要应付一下考试
作者: 程序猿小辉    时间: 2020-3-24 11:39
讲解的很细致,[赞]
作者: 莫塔奇1986    时间: 2020-4-17 09:41
转发了
作者: 数晓斗转星移    时间: 2020-4-20 12:57
转发了
作者: 周周开心    时间: 2020-6-3 08:13
及时雨,感觉这篇文章就是为我准备的,感谢![祈祷]
作者: 用户4735794167625    时间: 2020-9-14 15:12
转发了
作者: 我所知道的事    时间: 2020-12-4 07:04
转发了




欢迎光临 创意电子 (https://wxcydz.cc/) Powered by Discuz! X3.4