美文网首页
转录组直播课学习:第五天

转录组直播课学习:第五天

作者: 焱黎 | 来源:发表于2020-04-05 17:07 被阅读0次

    之前的工作中需要准备好的文件:
    基因组序列(genome.fasta)[已准备]
    样本信息表(samples.txt)
    蛋白序列(proteins.fa)[已准备]
    测序数据(samples.fastq)[已准备]
    基因注释文件(genes.gtf)[已准备]

    • 下面来准备样本信息表
    $ ls *.gz > fq.lst # 将所有fastq文件提取到fq.lst文件中去,方便后面制作样本信息表
    $ sed -i 's/.fastq.gz//' fq.lst  # 将fq.lst 文件的后缀去掉
    $ awk -F '_' '{print $1"_"$2"\t"$0"\t测序文件的绝对路径"$0".fastq.gz"}' > samples.txt # 这样就制作好了
    
    样本信息表

    数据比对到参考基因组
    软件:hisat2
    分成四小步

    1.构建参考基因组index

    $ hisat2-build ../ref(参考基因组路径)/genome.fasta ../ref/genome 1>hisat2-build.log 2>&1 
    # ../ref/genome就是生成的基因组index,1是生成的标准日志文件,2是错误日志文件,2>&1就是把错误日志文件输出到1中。
    

    2.比对

    $ awk '{print "hisat2 --new-summary -p 2 -x ../ref/genome -U "$3" -S "$2".sam --rna-strandness R 1>"$2".log 2>&1 &"}' ../data/samples.txt > step2.run_hisat2.sh
    # 其中--rna-strandness R是测序数据是否是链特异性测序的,如果是就写上,不是的话就不写,R是单端测序,RF是双端测序。如果服务器性能好的话就写上最后的&,让这24个样本同时运行。
    $ nohup sh step2.run_hisat2.sh &
    

    将生成的log文件利用multiqc软件合成一个比对表格

    3.将sam文件转换成bam文件

    $ awk '{print "samtools sort -o "$2".bam "$2".sam &"}' samples.txt > step3.sam2bam.sh
    $ nohup sh step3.sam2bam.sh &
    

    4.建立bam文件的index

    $ awk '{print "samtools index "$2".bam &"}' samples.txt > step4.bamindex.sh
    $ nohup step4.bamindex.sh &
    

    利用IGV进行比对可视化

    需要准备四个文件:bam文件、bam.bai文件、基因组序列
    先下载所需要的基因组、然后导入bam文件进行查看

    相关文章

      网友评论

          本文标题:转录组直播课学习:第五天

          本文链接:https://www.haomeiwen.com/subject/wmbjphtx.html