外显子测序:
SE:单端测序
PE:双端测序,测得reads更长
测序深度:测序得到的待测区域总碱基数与待测区域大小的比值
覆盖度:指测序获得的序列占整个待测区域的比例
SNP:单核苷酸多态性,个体间基因组 DNA序列同一位置单个核苷酸变异(替代、插入、缺失)所引起的多态性。
InDel:插入/缺失,在基因组重测序进行mapping时,进行容Gap的比对并检测可信的shortInDel
外显子信息分析流程:
5.SNP、InDel
1.本地局部比对:3个T
2.打分值校正:
3.查找
4.注释:table_annovar一次性对多个库进行注释
若一系列数据库都找不到改位点,那么用注释软件预测
ref:参考基因组碱基
倒数第二列:号
比如我们有50个病人,50个健康人,我们想找哪些snp位点和疾病相关,那我们就用GWAS,拿到位点注释得到位点与疾病是否相关,或者我们实验得到数据自己做一个GWAS分析,找到与疾病相关的位点。
建索引
1、注释:标明这个shell脚本是建立索引,index的
2、bwa进行比对
3、若注释文件超过2G,加参数比对
4、fasta文件告诉每个染色体的位置
5、每条染色体长度的信息
QC
与转录组同
14、15去adapter
17、18某一条reads的n含量超过5%,删掉
20、21低质量去除
比对
31、32比对到基因组上得到坐标文件 即为-f后面的文件
34、将两个文件进行综合,转换为bam文件
在生信中很多分析都是由bam文件分析的
bam文件
samtools查看bam文件
-h:可以看到bam文件的头文件
前三行都是bam文件的文件头,以@开头,若有很多个染色体,那么头文件就会很长
第一列:reads编号信息
2、reads打分,比对上正链、负链.....
3、比对到哪条:*:为没有比对上参考基因组的任何位置
4、5、比对到染色体上的哪个位置
6、打分:比对上的唯一性或质量值,越高越好
7、有几个比对上了:有70个全都比对上了
8、=:reads1和2都比对上了这条染色体
最后为序列文件和参数文件XT:A:U,unqiue
比对时,reads数小于100的比对用32-34,大于100的用36-37得到我们的bam文件
39、排序,按染色体的比对上的排,没拍之前是按输入的reads的顺序
40、index
41、dupuliacation 标记
42、拿出bam文件中的unique
45-47统计,可以通过r进行可视化
46、reads落在基因组上的区域UTR、CDS、TSS_UP_1K,大多数都要落在CDS区,因为是外显子建库 若没有的话,要考虑建库是否有问题,
47:覆盖深度的计算:文件行数 / 外显子总的兆数bp数=覆盖率
第三列加起来 / 外显子总的兆数bp数=整体测序的深度 (比如10*)
47call SNP、Indel
使用软件GATK
脚本53、创建一个需要去比对的区域,因为有的都是SNP就不需要比对,不会出现两个T或三个T的情况
54进行重新比对
57、需要调整的分值文件,--knowSites :snp文件:人:snp138
58、根据分值文件进行调整
59、对其建立索引
62、call SNP、indel:-T:算法,-glm:indel/SNP/both,-o输出文件后面的就是一些过滤条件
得到的文件最后两列GT:基因型;1/1:ref/自己的,都是T
AD:参考 0,2: T是0个,C是两个
DP:是总的测到的深度,reads总条数,AD的和
GQ:基因型打分
PL:三种基因型的打分,00、01、11,打分值越小,基因型可能xing越高,所以前面1/1
63、过滤SNP
SNP注释
annovar
染色体、起始、终止、ref、alt有这五列就可以去注释了
蓝色字体:数据库的下载,还可以去69的网页中下载别的注释的数据库
76、--remove删除中间文件
网友评论