众所周知,大夫做科研很难,发SCI更难。底子研究,临床研究与生信研究都属于大夫做科研的技能分支。
大部分大夫做科研的主线是搞底子研究,通过做实验来产出数据,但是底子研究做的过程很费时间,数据产出的过程必要各种实验技巧,门槛相对较高。
临床研究的难点一方面泉源于高质量的临床样本很难收集,另一方面在于对统计学知识的高要求。
近年来随着高通量测序技能的高速发展,生信研究异军突起,大夫可以不再必要科研经费即可快速发文章灌水了,利用别人的数据进行二次挖掘,下载数据分析一遍,出一些花花绿绿的图就可以写文章了,这谁能不爱?
把握一些生信底子知识,学有余力的小伙伴们再纯熟把握一些R语言的内容就可以实现弯道超车,是不是疯狂心动?
生信研究有套路吗?有!酸菜老师精心归纳了生信文章的四大构成板块:表达差异,功能聚类,交互网络与临床意义,总结为四字真言,即“挑圈联靠”。
简单来说,把公开的高通量数据拿来做二次分析,得到差异表达的分子列表,对其进行功能聚类分析后选出外交花范例的分子,抓住他们就能最有效率的控制整个网络,末了与临床资料相结合,转化成具有临床意义的科研成果。
上面这些步骤即对应了“挑圈联靠”四步走战略。当然这些过程中少不了一些生信技能本领来对数据进行分析,对于大夫而言,会纯熟把握R语言就可以摸到天花板了,再往上的Perl,Python倒是大可不必,那又有人问,要是不会编程,计算机不好怎么办?
别慌,今天这就教你如何避开R语言,利用零代码的生信数据库及软件shinyGEO,GSEA, STRING,Cytoscape,GEPIA2,带你“挑、圈、联、靠”一波带走一篇生信文章!
一、“挑”----表达差异之shinyGEO使用教程
台甫鼎鼎的GEO数据库想必各人都有所耳闻,GEO是著名的基因表达综合数据库,并自带GEO2R可以进行差异表达基因的分析,但是单个基因的评估却没有那么简单。
对于没有生物信息学专业知识的人来说,特定GEO数据集的生存分析也无法实现。那这个时候shinyGEO就提供了一种解决办法。
shinyGEO的特点总结如下:
(1)答应用户直接从GEO下载基因表达数据集,提供单基因差异表达和生存分析,并进行可视化作图;
(2)支持可视化图形定制、样本选择、数据导出和R代码生成。
表达差异分析
可视化作图
图形定制
数据导出
R代码生成
生存分析
总的来说,shinyGEO是一个GEO数据库的在线可视化工具,点击利用即可完成对GEO数据基因表达差异分析以及生存曲线绘制。
二、“圈”----功能聚类之GSEA软件使用教程
说到功能聚类,各人都能想到GO或者KEGG来对分子的功能和通路进行富集。
但是GO和KEGG进行分析的差异基因是通过人为定义的阈值得到的,而这种人为决定的阈值会遗遗漏某些表达差异不显著但有重要生物学意义的基因。
此外,如果上调基因和下调基因分开富集到了同一条通路,那这条通路到底是被激活照旧抑制呢?
传统的富集分析只能定位到功能,而GSEA则可以通过预定义的基因集在排序好的基因列表中的分布回答某通路被抑制照旧激活。
因此GSEA可以看作是GO和KEGG的补充和进阶,它检测的是基因集而不是单个基因的表达变革,得到更为理想的结果。
GSEA与传统GO、KEGG分析的区别:
(1)输入文件:GSEA是表达矩阵,传统的富集分析是基因名列表;
(2)排序:GSEA分析前必要根据表达量对基因进行排序,传统的GO、KEGG富集分析不必要;
(3)差异分析:GSEA不必要进行差异分析;
(4)目标:传统的富集分析重要关注的差异显著基因的功能,GSEA关注的是某个生物状态下功能基因集的变革。
GSEA简介
GSEA软件的下载和安装
GSEA输入文件的制作
GSEA分析
GSEA分析结果解读
总而言之,GSEA基因富集分析比传统的富集分析能发掘出更多的信息。
生信经典数据库使用教程合集(shinyGEO,GSEA, STRING,Cytoscape,GEPIA2)免费赠送,限量500 个名额。私信我回复“数据库”即可免费领取哦!
三、“联”----交互网络之STRING数据库+Cytoscape软件
在生信文章中,STRING数据库和Cytoscape可视化软件可谓是一对手拉手的好兄弟。
STRING数据库全称为search tool for the retrieval of interacting genes/proteins,基因/蛋白相互作用检索搜查工具,用来构建蛋白质-蛋白质相互作用网络(PPI网络)。
只有精确地发现和表明细胞中所有功能性的相互作用关系,才能对细胞的功能进行系统层面的学习和理解。
STRING数据库的焦点功能包括:
(1)单蛋白检索:通过输入单个蛋白的名称或序列(支持模糊搜刮),得到这个蛋白和其他蛋白的互作网络;
(2)多蛋白检索:通过输入多个蛋白的名称或序列,得到输入蛋白间的互作关系网络;
(3)对含有数目值/排序的蛋白进行富集,分析获得这些蛋白显著差异表达的通路,类似GSEA的新增模式。
STRING数据库概览
单蛋白检索:绘制PPI网络
单蛋白检索结果解读
多蛋白检索:绘制PPI网络
多蛋白检索结果解读
实例讲解
与Cytoscape软件联用
含有数目值/排序的蛋白检索
总结,STRING可简单便捷地实现基因的互作关系网络图。
正如前文所述,利用STRING数据库得到的PPI网络可以进一步导入到Cytoscape软件中进行进一步的作图和润色,并可利用一些插件对网络图的节点进行相应的计算。
Cytoscape可用于蛋白-蛋白相互作用、蛋白-DNA相互作用、miRNA-mRNA相互作用的分析,支持多种数据输入格式,支持外源数据导入,也可以利用软件本身的编辑器模块直接构建网络图。
Cytoscape软件基本介绍
Cytoscape下载与安装
Cytoscape界面介绍
数据导入与图形编辑
常见插件应用
绘制PPI网络图
筛选Hub基因
绘制ceRNA网络图
总的来说,Cytoscape可简单便捷地实现网络可视化。
生信经典数据库使用教程合集(shinyGEO,GSEA, STRING,Cytoscape,GEPIA2)免费赠送,限量500 个名额。私信我回复“数据库”即可免费领取哦!
四、“靠”----临床意义之GEPIA2数据库
肿瘤生信之于非肿瘤生信的上风之一就是可以获取丰富的临床资料,通过将生信分析的结果与临床信息相互结合获得更有说服力,更有临床意义的结果。
在此为各人安利国人之光GEPIA2数据库,全称为Gene Expression Profiling Interactive Analysis,可以基于基因表达水平值,计算某个基因在某类肿瘤中的表达水平,进而计算其与肿瘤预后的关系,基因之间的共表达水平等等。
该数据库零代码利用,零底子的同学也可以借助其完成纯生信文章发表或是基金申请,或是设计自己的课题。GEPIA2数据库由北京大学建立,目前国际承认度高,使用人群广泛。
GEPIA2数据库基本介绍
GEPIA2数据库利用解析之单基因分析
GEPIA2数据库利用解析之基于癌症范例分析
GEPIA2数据库利用解析之多基因分析
GEPIA2数据库上风与劣势
GEPIA2与其他数据库联用
GEPIA2数据库高分论文展示
总结,GEPIA2数据库可以零代码完成一个生信课题。
零代码生信文章的“挑、圈、联、靠”四大板块常用经典数据库已经带领各人都过了一遍,不知各人是否尽兴?
为了用最简单的方式资助你成长,生信经典数据库使用教程合集(shinyGEO,GSEA, STRING,Cytoscape,GEPIA2)免费赠送,限量500 个名额。私信我回复[size=1.176em]“数据库”即可免费领取哦! |