成为一个合格的生信工程师必经之路
6大基础知识的掌握
首先你需要了解一些测序基础知识,生物学基础知识,这个主要靠自己看,还有平时多积累。
在生信技能树论坛上面我列了一下,需要自行花时间自学,遇到不懂的名词多搜索,多熟记。对应我们生信技能树的论坛版块是: 生信技能树»生信技能树›生信基础›测序原理-数据格式-数据库
然后你需要掌握一门编程语言,可以从http://www.biotrainee.com/forum-90-1.html 里面的题目开始,当然你需要先来一些简单,你先看这个,http://www.biotrainee.com/thread-834-1-1.html 编程学会怎么着也得两三个月了。对应我们生信技能树的论坛版块是:生信技能树›互动作业›脚本能力实践›生信人必练的200个数据处理任务
如果是linux,不妨看看实验楼的练习:
- 全部课程 — >Linux, 新手入门, 计算机专业课 — > Linux 基础入门(新版)
也可以跟着视频来练习,如果你实在是需要,这里推荐业界马哥的视频教程,链接: https://pan.baidu.com/s/1slukNwT 密码: xyq9
这些基础掌握的七七八八了,就可以开始NGS组学之旅了。
NGS组学技术的掌握
首先看 5 篇综述并翻译,涵盖主流的5个NGS组学技术:WES/RNA-seq/CHIP-seq/miRNA-seq/lncRNA-seq
- Practical Guidelines for the Comprehensive Analysis of ChIP-seq Data : http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3828144/
- A survey of tools for variant analysis of next-generation genome sequencing data : http://bib.oxfordjournals.org/content/15/2/256.short
- A survey of best practices for RNA-seq data analysis : http://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-0881-8
- Online resources for miRNA analysis : http://www.sciencedirect.com/science/article/pii/S0009912013000994
- Long non-coding RNA discovery pipeline : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0025915
对应这些组学的PPT也需要自行搜索后浏览,掌握概念,原理。
然后看5篇测序数据分析例子:
- miRNA-seq : RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model. : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0108051
- CHIP-seq : CARM1 Methylates Chromatin Remodeling Factor BAF155 to Enhance Tumor Progression and Metastasis http://www.cell.com/cancer-cell/abstract/S1535-6108(13)00536-9
- WES : Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders http://www.nejm.org/doi/full/10.1056/NEJMoa1306555#t=article
- LncRNA: Integration of Genome-wide Approaches Identifies lncRNAs of Adult Neural Stem Cells and Their Progeny In Vivo http://www.sciencedirect.com/science/article/pii/S1934590913000982
- RNA-seq: RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells
然后看5篇芯片数据分析例子:lncRNA : http://pubmedcentralcanada.ca/pmcc/articles/PMC3691033/ ,我就不继续罗列了。
转录组流程
https://f1000research.com/articles/4-1070/v1
https://f1000research.com/articles/5-1438/v1
https://www.bioconductor.org/help/workflows/rnaseqGene/
当然,实践这些项目你肯定是需要流程,代码,在我的github里面已经有了,但是你需要掌握了linux,软件安装等等,才能看懂。我的github地址是: https://github.com/jmzeng1314/NGS-pipeline
等你实践经验足够了,你会发现它们本质上都只是数据处理而已,你可以看我以前录制好的总结视频:有参组学(全基因组,全外显子组学,转录组学,表观)的几个NGS测序数据分析的表现形式的异同点,视频见腾讯课堂:https://biotree.ke.qq.com/ 敬请关注。
当然,我的视频还有很多,如果你感兴趣,可以自行按需下载:我做博客3年来录制的所有免费视频, 因为百度云总是禁止我分享,所以我会慢慢转移到腾讯课堂:https://biotree.ke.qq.com/ 敬请关注。
我还在论坛上面收集整理了很多NGS组学实践项目,欢迎大家前去练习,http://www.biotrainee.com/forum-108-1.html , 这个取决于你的悟性了。
但是如果要真正步入生信的殿堂,编程其实是少不了的,请继续学下去。
关于R语言
知道什么是R语言,了解基本语法,Rstudio编辑器,读写文件,跟Excel的区别,绘图等可视化,生物信息学相关的bioconductor系列包。
首先下载R语言打印版的 cheatsheet, 链接:http://pan.baidu.com/s/1nv5Oulb 密码:4tsn 放在办公桌,或者枕头边上,随时浏览记忆。然后这里有一个网络视频教程,链接:https://pan.baidu.com/s/1slbPogX 密码:ga9x 是数据分析与R语言视频教程+课件 请务必抽时间听完,一步步跟着操作学习,可以保证你R语言能入门。
上面的链接可能会被百度云封锁,看看这个:链接:https://pan.baidu.com/s/1bptknXt 密码:7tmg 生信入门(包括史上最全R语言资料合集,北大的生物信息学公开课等) 浏览器打开,选择感兴趣有需要的资料下载即可
如果所有的链接都失效了,你试试看百度云搜索功能,也许可以找到我们新的分享。
尤为注意的是,初学者千万不要钻牛角尖,而是要广泛涉猎,牢记基础,应用加实践,其背后的计算机逻辑算法等可以后期再补,而且要时刻记住,学习R语言是为了分析生物信息学数据。
- 约翰•霍普金斯大学的Bioconductor学习课程
- 斯坦福大学的暑期小课程-用bioconductor做统计分析
- a Little Book of R for Bioinformatics!
- 生物学家应该这样学R绘图-视频,数据,代码全公开
一般不建议初学者直接下载 史上最全R语言资料汇总,链接:https://pan.baidu.com/s/1bptknXt 密码:7tmg 里面的资料实在是太多了,初学者很容易迷失在里面。但我还是给大家,毕竟入门之后的提高,还是用得着的。
关于python
同样的,接下来你应该要开始实践:
生信技能树»生信技能树›互动作业›脚本能力实践›生信编程实战5个月传送门~~~
需要自己跟着一套视频来一步步练习,这里推荐 炼数成金的python课程 链接: https://pan.baidu.com/s/1bo9WmvX 密码: di8q
小成境界
我大概总结了一下:
生信小成
网友评论