CLIP-seq结合了实验和测序方法,可以研究某种蛋白质在体内的RNA的结合情况。原理为基于RNA和RNA结合蛋白在紫外线照射下发生偶联,再经过蛋白特异性抗体将其沉淀,回收片段,再经添加接头,PCR扩增,进行高通量测序,最后经过生物信息学方法分析和处理得到相应的结果。本篇文章注重讨论后续的生物信息学处理。
这篇文章总结一下如何从测序得到原始数据到质控以及序列匹配和peakcalling等步骤,目的是得到蛋白质及其结合RNA的对应关系。涉及到的软件有fastx_toolkit(去接头质控)、bowtie(序列匹配)、samtools(生成bam文件)、bamtools(bam文件排序)、bedtools(bed文件)、piranha(peak_calling)等的使用。
首先讨论数据的获取,通常来源于公共数据库的下载,或者是实验所测得。公共数据库可以从多种途径上下,诸如ENA,SRA等。我处理的数据全部从SRA上下载。
下载数据我用的是aspera,aspera是一种高速的文件传输系统,下载速度和质量都比较好,至于安装和编译过程网上均有较详细的教程。https://asperasoft.com/
fastx_toolkit: 安装编译网上教程均有,功能为去接头(adaptor),通常需要卡个长度阈值,然后进行质控(这边保留至少80%得分大于20的序列)。用到的命令有Clipper、Quality filter、Collapser。
clipper 用于减去接头,通常根据文章特定信息减去接头,或者根据不同的测序方法减去特定规定的接头序列(ilumina)。(cutadapt也能去接头,根据需要选)。quality filter用于质量控制,过滤掉质量偏低的序列,collapser用于压缩相同的序列,压缩完后fasta文件格式会转换为fastq格式。
bowtie是一款比较强大的比对软件,比对前通常需要对参考基因组建立一个索引,常用的如hg19的pre-index,bowtie在主页已经有了,可直接下载使用(3个G左右),然后根据需要设置参数选项等等。bowtie适合比对reads较短的序列,bowtie2适合比对较长的reads(大于1000).Bowtie: An ultrafast, memory-efficient short read aligner
samtools是一个用于操作sam和bam文件的工具合集,功能较多,这里用来将得到的sam文件抓换为bam文件。bamtools可用来对生成的bam文件进行排序,使其符合一定格式,有利于后续的peak calling,若不执行这一步,则在后续peak calling过程中会报错,提示你未对bam文件排序。
bedtools是一款及其强大的软件,具体信息详见官网介绍,这边我们先用其bam转bed,后续还会用到intersect,可以对序列取交集,并根据需要执行不同的输出。bedtools: a powerful toolset for genome arithmetic — bedtools 2.28.0 documentation
piranha是常用于进行peak calling的软件,可以通过调整不同的参数,最终能够得到一部分序列(bed文件)。后续再通过与hg19参考基因组进行取交集,就能得到pc后的序列对应的基因了。
网友评论