美文网首页NGSrna_seqlinux
外显子信息分析简介学习

外显子信息分析简介学习

作者: jiarf | 来源:发表于2020-08-07 10:27 被阅读0次

    外显子测序:

    SE:单端测序

    PE:双端测序,测得reads更长

    测序深度:测序得到的待测区域总碱基数与待测区域大小的比值

    覆盖度:指测序获得的序列占整个待测区域的比例

    SNP:单核苷酸多态性,个体间基因组 DNA序列同一位置单个核苷酸变异(替代、插入、缺失)所引起的多态性。

    InDel:插入/缺失,在基因组重测序进行mapping时,进行容Gap的比对并检测可信的shortInDel

    外显子信息分析流程:

    5.SNP、InDel

    1.本地局部比对:3个T

    2.打分值校正:

    3.查找

    4.注释:table_annovar一次性对多个库进行注释

    若一系列数据库都找不到改位点,那么用注释软件预测

    ref:参考基因组碱基

    倒数第二列:号

    比如我们有50个病人,50个健康人,我们想找哪些snp位点和疾病相关,那我们就用GWAS,拿到位点注释得到位点与疾病是否相关,或者我们实验得到数据自己做一个GWAS分析,找到与疾病相关的位点。

    建索引

    1、注释:标明这个shell脚本是建立索引,index的

    2、bwa进行比对

    3、若注释文件超过2G,加参数比对

    4、fasta文件告诉每个染色体的位置

    5、每条染色体长度的信息

      QC

    与转录组同

    14、15去adapter

    17、18某一条reads的n含量超过5%,删掉

    20、21低质量去除

    比对

    31、32比对到基因组上得到坐标文件 即为-f后面的文件

    34、将两个文件进行综合,转换为bam文件

    在生信中很多分析都是由bam文件分析的

    bam文件

    samtools查看bam文件

    -h:可以看到bam文件的头文件

    前三行都是bam文件的文件头,以@开头,若有很多个染色体,那么头文件就会很长

    第一列:reads编号信息

    2、reads打分,比对上正链、负链.....

    3、比对到哪条:*:为没有比对上参考基因组的任何位置

    4、5、比对到染色体上的哪个位置

    6、打分:比对上的唯一性或质量值,越高越好

    7、有几个比对上了:有70个全都比对上了

    8、=:reads1和2都比对上了这条染色体

    最后为序列文件和参数文件XT:A:U,unqiue

    比对时,reads数小于100的比对用32-34,大于100的用36-37得到我们的bam文件

    39、排序,按染色体的比对上的排,没拍之前是按输入的reads的顺序

    40、index

    41、dupuliacation 标记

    42、拿出bam文件中的unique

    45-47统计,可以通过r进行可视化

    46、reads落在基因组上的区域UTR、CDS、TSS_UP_1K,大多数都要落在CDS区,因为是外显子建库 若没有的话,要考虑建库是否有问题,

    47:覆盖深度的计算:文件行数 / 外显子总的兆数bp数=覆盖率

    第三列加起来 / 外显子总的兆数bp数=整体测序的深度  (比如10*)

    47

    call SNP、Indel

    使用软件GATK

    脚本

    53、创建一个需要去比对的区域,因为有的都是SNP就不需要比对,不会出现两个T或三个T的情况

    54进行重新比对

    57、需要调整的分值文件,--knowSites :snp文件:人:snp138

    58、根据分值文件进行调整

    59、对其建立索引

    62、call SNP、indel:-T:算法,-glm:indel/SNP/both,-o输出文件后面的就是一些过滤条件

    得到的文件最后两列

    GT:基因型;1/1:ref/自己的,都是T

    AD:参考         0,2: T是0个,C是两个

    DP:是总的测到的深度,reads总条数,AD的和

    GQ:基因型打分

    PL:三种基因型的打分,00、01、11,打分值越小,基因型可能xing越高,所以前面1/1

    63、过滤SNP

    SNP注释

    annovar

    染色体、起始、终止、ref、alt有这五列就可以去注释了

    蓝色字体:数据库的下载,还可以去69的网页中下载别的注释的数据库

    76、--remove删除中间文件

    相关文章

      网友评论

        本文标题:外显子信息分析简介学习

        本文链接:https://www.haomeiwen.com/subject/gxozrktx.html