外显子信息分析简介学习

作者: jiarf | 来源:发表于2020-08-07 10:27 被阅读0次

外显子测序：

SE：单端测序

PE：双端测序，测得reads更长

测序深度：测序得到的待测区域总碱基数与待测区域大小的比值

覆盖度：指测序获得的序列占整个待测区域的比例

SNP：单核苷酸多态性，个体间基因组 DNA序列同一位置单个核苷酸变异（替代、插入、缺失）所引起的多态性。

InDel：插入/缺失，在基因组重测序进行mapping时，进行容Gap的比对并检测可信的shortInDel

外显子信息分析流程：

5.SNP、InDel

1.本地局部比对：3个T

2.打分值校正：

3.查找

4.注释：table_annovar一次性对多个库进行注释

若一系列数据库都找不到改位点，那么用注释软件预测

ref：参考基因组碱基

倒数第二列：号

比如我们有50个病人，50个健康人，我们想找哪些snp位点和疾病相关，那我们就用GWAS，拿到位点注释得到位点与疾病是否相关，或者我们实验得到数据自己做一个GWAS分析，找到与疾病相关的位点。

建索引

1、注释：标明这个shell脚本是建立索引，index的

2、bwa进行比对

3、若注释文件超过2G，加参数比对

4、fasta文件告诉每个染色体的位置

5、每条染色体长度的信息

QC

与转录组同

14、15去adapter

17、18某一条reads的n含量超过5%,删掉

20、21低质量去除

比对

31、32比对到基因组上得到坐标文件即为-f后面的文件

34、将两个文件进行综合，转换为bam文件

在生信中很多分析都是由bam文件分析的

bam文件

samtools查看bam文件

-h：可以看到bam文件的头文件

前三行都是bam文件的文件头，以@开头，若有很多个染色体，那么头文件就会很长

第一列：reads编号信息

2、reads打分，比对上正链、负链.....

3、比对到哪条：*：为没有比对上参考基因组的任何位置

4、5、比对到染色体上的哪个位置

6、打分：比对上的唯一性或质量值，越高越好

7、有几个比对上了：有70个全都比对上了

8、=：reads1和2都比对上了这条染色体

最后为序列文件和参数文件XT：A：U，unqiue

比对时，reads数小于100的比对用32-34，大于100的用36-37得到我们的bam文件

39、排序，按染色体的比对上的排，没拍之前是按输入的reads的顺序

40、index

41、dupuliacation 标记

42、拿出bam文件中的unique

45-47统计，可以通过r进行可视化

46、reads落在基因组上的区域UTR、CDS、TSS_UP_1K,大多数都要落在CDS区，因为是外显子建库若没有的话，要考虑建库是否有问题，

47：覆盖深度的计算：文件行数 / 外显子总的兆数bp数=覆盖率

第三列加起来 / 外显子总的兆数bp数=整体测序的深度（比如10*）

47

call SNP、Indel

使用软件GATK

脚本

53、创建一个需要去比对的区域，因为有的都是SNP就不需要比对，不会出现两个T或三个T的情况

54进行重新比对

57、需要调整的分值文件，--knowSites ：snp文件：人：snp138

58、根据分值文件进行调整

59、对其建立索引

62、call SNP、indel：-T：算法，-glm：indel/SNP/both，-o输出文件后面的就是一些过滤条件

得到的文件最后两列

GT：基因型；1/1：ref/自己的，都是T

AD：参考 0，2： T是0个，C是两个

DP：是总的测到的深度，reads总条数，AD的和

GQ：基因型打分

PL：三种基因型的打分，00、01、11，打分值越小，基因型可能xing越高，所以前面1/1

63、过滤SNP

SNP注释

annovar

染色体、起始、终止、ref、alt有这五列就可以去注释了

蓝色字体：数据库的下载，还可以去69的网页中下载别的注释的数据库

76、--remove删除中间文件

网友评论

本文标题：外显子信息分析简介学习

本文链接：https://www.haomeiwen.com/subject/gxozrktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

外显子信息分析简介学习

外显子信息分析流程：

建索引

QC

比对

bam文件

call SNP、Indel

SNP注释

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

NGS

rna_seq

linux

生物信息学数据分析