解螺旋 发表于 2021-3-12 08:00:00

高分生信文章不是梦,学会这5个数据库,你也是科研界的大佬

众所周知,大夫做科研很难,发SCI更难。底子研究,临床研究与生信研究都属于大夫做科研的技能分支。


大部分大夫做科研的主线是搞底子研究,通过做实验来产出数据,但是底子研究做的过程很费时间,数据产出的过程必要各种实验技巧,门槛相对较高。


临床研究的难点一方面泉源于高质量的临床样本很难收集,另一方面在于对统计学知识的高要求。


近年来随着高通量测序技能的高速发展,生信研究异军突起,大夫可以不再必要科研经费即可快速发文章灌水了,利用别人的数据进行二次挖掘,下载数据分析一遍,出一些花花绿绿的图就可以写文章了,这谁能不爱?


把握一些生信底子知识,学有余力的小伙伴们再纯熟把握一些R语言的内容就可以实现弯道超车,是不是疯狂心动?


生信研究有套路吗?有!酸菜老师精心归纳了生信文章的四大构成板块:表达差异,功能聚类,交互网络与临床意义,总结为四字真言,即“挑圈联靠”。


简单来说,把公开的高通量数据拿来做二次分析,得到差异表达的分子列表,对其进行功能聚类分析后选出外交花范例的分子,抓住他们就能最有效率的控制整个网络,末了与临床资料相结合,转化成具有临床意义的科研成果。


上面这些步骤即对应了“挑圈联靠”四步走战略。当然这些过程中少不了一些生信技能本领来对数据进行分析,对于大夫而言,会纯熟把握R语言就可以摸到天花板了,再往上的Perl,Python倒是大可不必,那又有人问,要是不会编程,计算机不好怎么办?


别慌,今天这就教你如何避开R语言,利用零代码的生信数据库及软件shinyGEO,GSEA, STRING,Cytoscape,GEPIA2,带你“挑、圈、联、靠”一波带走一篇生信文章!


一、“挑”----表达差异之shinyGEO使用教程


台甫鼎鼎的GEO数据库想必各人都有所耳闻,GEO是著名的基因表达综合数据库,并自带GEO2R可以进行差异表达基因的分析,但是单个基因的评估却没有那么简单。


对于没有生物信息学专业知识的人来说,特定GEO数据集的生存分析也无法实现。那这个时候shinyGEO就提供了一种解决办法。


shinyGEO的特点总结如下:
(1)答应用户直接从GEO下载基因表达数据集,提供单基因差异表达和生存分析,并进行可视化作图;
(2)支持可视化图形定制、样本选择、数据导出和R代码生成。


表达差异分析
https://p1.pstatp.com/large/pgc-image/cf7fa9b99fea400d813d83e840226c94


可视化作图
https://p1.pstatp.com/large/pgc-image/3670ecfa7d8147389cf0a6a29105015e


图形定制
https://p1.pstatp.com/large/pgc-image/f3d8696b89ad48178650e3c5817d79fd


数据导出
https://p3.pstatp.com/large/pgc-image/671898e4741f45868a873a7a4aee9a8e


R代码生成
https://p3.pstatp.com/large/pgc-image/63643e62ac56406286a2ce0956ac709b


生存分析
https://p1.pstatp.com/large/pgc-image/216fa550ddd647d48b74cbaa4c4a0952


https://p1.pstatp.com/large/pgc-image/e8f5865e189641e6b1db221c57f7ae21


总的来说,shinyGEO是一个GEO数据库的在线可视化工具,点击利用即可完成对GEO数据基因表达差异分析以及生存曲线绘制。


https://p1.pstatp.com/large/pgc-image/0f054ef528254aa2b8cf261d2bdab7d9


二、“圈”----功能聚类之GSEA软件使用教程


说到功能聚类,各人都能想到GO或者KEGG来对分子的功能和通路进行富集。


但是GO和KEGG进行分析的差异基因是通过人为定义的阈值得到的,而这种人为决定的阈值会遗遗漏某些表达差异不显著但有重要生物学意义的基因。


此外,如果上调基因和下调基因分开富集到了同一条通路,那这条通路到底是被激活照旧抑制呢?


传统的富集分析只能定位到功能,而GSEA则可以通过预定义的基因集在排序好的基因列表中的分布回答某通路被抑制照旧激活。


因此GSEA可以看作是GO和KEGG的补充和进阶,它检测的是基因集而不是单个基因的表达变革,得到更为理想的结果。


GSEA与传统GO、KEGG分析的区别:
(1)输入文件:GSEA是表达矩阵,传统的富集分析是基因名列表;
(2)排序:GSEA分析前必要根据表达量对基因进行排序,传统的GO、KEGG富集分析不必要;
(3)差异分析:GSEA不必要进行差异分析;
(4)目标:传统的富集分析重要关注的差异显著基因的功能,GSEA关注的是某个生物状态下功能基因集的变革。


GSEA简介


https://p1.pstatp.com/large/pgc-image/944ea1ed9ab244c3856e7cd284784279


https://p3.pstatp.com/large/pgc-image/7ae504575a7d4a4bae36d412bd80a57e


GSEA软件的下载和安装


https://p1.pstatp.com/large/pgc-image/8a1006f96ec241b581e299892f3fc11d


https://p1.pstatp.com/large/pgc-image/4e7b3f46eaf849788fa52dd3fcd25736


GSEA输入文件的制作


https://p9.pstatp.com/large/pgc-image/6e7e63bff05c41f88006c790f4cad2fc


https://p3.pstatp.com/large/pgc-image/46c7577f858c41e492331d319b434b65


https://p3.pstatp.com/large/pgc-image/59ae18cc66144443924ada5148ae82a6


https://p1.pstatp.com/large/pgc-image/8824d9ac26724f7da544d1773397402f


GSEA分析


https://p3.pstatp.com/large/pgc-image/fc8d4516d98f4350805cd74121e2f503


GSEA分析结果解读


https://p1.pstatp.com/large/pgc-image/4ca53611db47462e93dfbc2594821188


总而言之,GSEA基因富集分析比传统的富集分析能发掘出更多的信息。


https://p1.pstatp.com/large/pgc-image/a278d1f3b1c84a0dbdff2c878a9a2ef3


生信经典数据库使用教程合集(shinyGEO,GSEA, STRING,Cytoscape,GEPIA2)免费赠送,限量500 个名额。私信我回复“数据库”即可免费领取哦!


三、“联”----交互网络之STRING数据库+Cytoscape软件


在生信文章中,STRING数据库和Cytoscape可视化软件可谓是一对手拉手的好兄弟。


STRING数据库全称为search tool for the retrieval of interacting genes/proteins,基因/蛋白相互作用检索搜查工具,用来构建蛋白质-蛋白质相互作用网络(PPI网络)。


只有精确地发现和表明细胞中所有功能性的相互作用关系,才能对细胞的功能进行系统层面的学习和理解。


STRING数据库的焦点功能包括:
(1)单蛋白检索:通过输入单个蛋白的名称或序列(支持模糊搜刮),得到这个蛋白和其他蛋白的互作网络;
(2)多蛋白检索:通过输入多个蛋白的名称或序列,得到输入蛋白间的互作关系网络;
(3)对含有数目值/排序的蛋白进行富集,分析获得这些蛋白显著差异表达的通路,类似GSEA的新增模式。


STRING数据库概览


https://p3.pstatp.com/large/pgc-image/71b47ee8630e40ed8d3de7792a42824a


单蛋白检索:绘制PPI网络


https://p1.pstatp.com/large/pgc-image/747557f9a27743f1971642220c82e8cb


https://p3.pstatp.com/large/pgc-image/86eb3ce48706434fb3af80145850d1fe


单蛋白检索结果解读


https://p3.pstatp.com/large/pgc-image/660d9cd8e8244b8287cd26335d590ec4


https://p3.pstatp.com/large/pgc-image/58357e4d324f4c6195cd8099c6429e8f


多蛋白检索:绘制PPI网络


https://p9.pstatp.com/large/pgc-image/660bb7b5a31b49c3a2391422848061d5


https://p1.pstatp.com/large/pgc-image/30a36584cb1846549de50f51f7b6bc3d


多蛋白检索结果解读


https://p1.pstatp.com/large/pgc-image/41e164b8982a4eb69a2efcf5c88f0913


https://p3.pstatp.com/large/pgc-image/962cd97f36bc43a29aefef5d02471d0d


实例讲解


https://p1.pstatp.com/large/pgc-image/6d40edd7278f40d6bcfac01aea19cc1a


https://p9.pstatp.com/large/pgc-image/226aed2a3ba447d6ab99f2beb5430898


与Cytoscape软件联用


https://p9.pstatp.com/large/pgc-image/55c29dcb19164de89eb3dd7345a2130a


含有数目值/排序的蛋白检索


https://p9.pstatp.com/large/pgc-image/dc1e2e7bbbef4bd8b32512cd9d1a61f8


https://p9.pstatp.com/large/pgc-image/6693115037be4899a715948e9f330f38


总结,STRING可简单便捷地实现基因的互作关系网络图。


https://p3.pstatp.com/large/pgc-image/75dd0d20bcb74cdd809eecd96e17c329


正如前文所述,利用STRING数据库得到的PPI网络可以进一步导入到Cytoscape软件中进行进一步的作图和润色,并可利用一些插件对网络图的节点进行相应的计算。


Cytoscape可用于蛋白-蛋白相互作用、蛋白-DNA相互作用、miRNA-mRNA相互作用的分析,支持多种数据输入格式,支持外源数据导入,也可以利用软件本身的编辑器模块直接构建网络图。


Cytoscape软件基本介绍


https://p1.pstatp.com/large/pgc-image/08f6e7354e444972ab9d52c2246507d3


Cytoscape下载与安装


https://p3.pstatp.com/large/pgc-image/7d467f15c45f4a38953ba096bb708c14


https://p1.pstatp.com/large/pgc-image/1d415be1e7654e31acefa9bcacf4675c


Cytoscape界面介绍


https://p3.pstatp.com/large/pgc-image/f6960a785fe448f1b5bfbd2d3d5946a6


https://p1.pstatp.com/large/pgc-image/d83290d7885441d989822cdea5663714


数据导入与图形编辑


https://p3.pstatp.com/large/pgc-image/4b662fa177a942b1bfda55764ecaae07


https://p3.pstatp.com/large/pgc-image/75b1af0ce4c04a569e87d472d232f750


https://p1.pstatp.com/large/pgc-image/89a937d756794ff7b08ccfe95f924500


常见插件应用


https://p3.pstatp.com/large/pgc-image/a76f5e51f8ba4dbfa2b584db3090f956


https://p1.pstatp.com/large/pgc-image/e45a67c278f147879b5daab7f0a84f4a


绘制PPI网络图


https://p3.pstatp.com/large/pgc-image/875b252ac5fc456b88d5e44df2d0e883


https://p3.pstatp.com/large/pgc-image/743cd77bafdc4a85aaae9035bc363333


筛选Hub基因


https://p9.pstatp.com/large/pgc-image/e224efd59f9c427698562ae5aea572df


https://p9.pstatp.com/large/pgc-image/78dfa5d7f25c4bde8c5c787d44bd59b0


绘制ceRNA网络图


https://p3.pstatp.com/large/pgc-image/f2654bbd89034cee98163a2fa979b0d0


https://p3.pstatp.com/large/pgc-image/ab6f8e7e48af497bb3ca78b25539a3e4


https://p1.pstatp.com/large/pgc-image/15f007a66b04406a940a566dbdf41d6e


总的来说,Cytoscape可简单便捷地实现网络可视化。


https://p1.pstatp.com/large/pgc-image/c5a95a756c214c9481c4fe05db839ddd


生信经典数据库使用教程合集(shinyGEO,GSEA, STRING,Cytoscape,GEPIA2)免费赠送,限量500 个名额。私信我回复“数据库”即可免费领取哦!


四、“靠”----临床意义之GEPIA2数据库


肿瘤生信之于非肿瘤生信的上风之一就是可以获取丰富的临床资料,通过将生信分析的结果与临床信息相互结合获得更有说服力,更有临床意义的结果。


在此为各人安利国人之光GEPIA2数据库,全称为Gene Expression Profiling Interactive Analysis,可以基于基因表达水平值,计算某个基因在某类肿瘤中的表达水平,进而计算其与肿瘤预后的关系,基因之间的共表达水平等等。


该数据库零代码利用,零底子的同学也可以借助其完成纯生信文章发表或是基金申请,或是设计自己的课题。GEPIA2数据库由北京大学建立,目前国际承认度高,使用人群广泛。


GEPIA2数据库基本介绍


https://p9.pstatp.com/large/pgc-image/e02004db392b4984ad8eed208c8dedc4


https://p1.pstatp.com/large/pgc-image/a5bda6a923d14b39a423e0e5f4850ff4


GEPIA2数据库利用解析之单基因分析


https://p1.pstatp.com/large/pgc-image/ef8d8142a39142d1adaf6b8796eadc09


https://p3.pstatp.com/large/pgc-image/70a2752fe3874ec8a0609625ba8abf19


https://p1.pstatp.com/large/pgc-image/dedeaac2ea864ce3b15a3e0a317fce59


https://p9.pstatp.com/large/pgc-image/5cecc9852f0647ef82a3ba6ec778908a


https://p1.pstatp.com/large/pgc-image/4e8f737a683c4516be2295bdcd0d9519


https://p1.pstatp.com/large/pgc-image/16dc2e9277254864b411360423eccb9d


https://p1.pstatp.com/large/pgc-image/25f0f005ca26437dbeeae77894fd316b


https://p3.pstatp.com/large/pgc-image/083b8bb366fd4ed2a9110975a85c5caa


https://p1.pstatp.com/large/pgc-image/d7b2a5b716ea435e98f59cfb9818be25


https://p3.pstatp.com/large/pgc-image/a176de451dbc406397cfb4c9c7c25e45


https://p1.pstatp.com/large/pgc-image/ec7056a1537e401f8292f3b6eb8a79aa


GEPIA2数据库利用解析之基于癌症范例分析


https://p1.pstatp.com/large/pgc-image/1bd9189c86a64d9ba78d6ef9d02d96f3


https://p1.pstatp.com/large/pgc-image/2c5306c760da4a7f8ab370e630af100e


GEPIA2数据库利用解析之多基因分析


https://p3.pstatp.com/large/pgc-image/d96591d7954a433abb5cc2e8045f6e64


GEPIA2数据库上风与劣势


https://p3.pstatp.com/large/pgc-image/f1273df446114413939533345a8106de


GEPIA2与其他数据库联用


https://p3.pstatp.com/large/pgc-image/370613331db94d01b0871e2bae85ab5e


GEPIA2数据库高分论文展示


https://p1.pstatp.com/large/pgc-image/f4b67b72f9d44f59afe80e7dd8040675


总结,GEPIA2数据库可以零代码完成一个生信课题。


https://p1.pstatp.com/large/pgc-image/42428dcf289745c4bf2bf3a016753eab


零代码生信文章的“挑、圈、联、靠”四大板块常用经典数据库已经带领各人都过了一遍,不知各人是否尽兴?


为了用最简单的方式资助你成长,生信经典数据库使用教程合集(shinyGEO,GSEA, STRING,Cytoscape,GEPIA2)免费赠送,限量500 个名额。私信我回复“数据库”即可免费领取哦!

交医研究僧 发表于 2021-3-14 22:14:25

数据库在哪里领取?

景依蓝 发表于 2021-3-12 12:13:17

转发了

别天尘 发表于 2021-3-12 10:50:37

转发了

酩52260516 发表于 2021-3-12 23:36:35

转发了

Dr曾大大 发表于 2021-3-12 09:27:18

转发了

美西Waynewdchen 发表于 2021-3-12 23:08:29

转发了

PEPA桃熏 发表于 2021-3-12 23:49:55

转发了

豆子哼哈嘿酋长国 发表于 2021-3-13 20:45:01

转发了

安医大一附院临检 发表于 2021-3-13 10:42:15

转发了
页: [1] 2
查看完整版本: 高分生信文章不是梦,学会这5个数据库,你也是科研界的大佬