2019-06-05

作者: 苹果皮好多皮 | 来源:发表于2019-06-06 09:22 被阅读0次

    试验记录3

    1、关于昨天无法识别参考基因组问题,看链接。

    https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/advanced/references

    1)需要gtf文件,但我上传的是gff文件

    准备知识:gtf和gff文件的区别以及如何转换详见

    https://www.sogou.com/link?url=hedJjaC291OV7dVab-QfvHtdr0qpeLU_q-AJTa7ycw4kT9jfsNhhYQ..

    gtf文件的内容格式见下图:

    操作:利用cufflinks中的gffread,写命令

    4.0 3.1

    分别将这两种基因组gff格式转换为gtf格式。

    标准命令和范例

    2)https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/advanced/references#mkgtf(官网链接)

    https://www.jianshu.com/p/f14cb44094c9(中文简书链接)

    从ENSEMBL和UCSC等网站下载的GTF文件通常包含需要从最终注释中过滤的转录本和基因。Cell Ranger提供mkgtf,这是一个简单的实用工具,可以根据GTF属性列中的键值对过滤基因。

    首先cellranger mkgtf对最初的gtf文件进行过滤。官网中命令形式见下图,通过attribute属性来筛选,其中--attribute=gene_biotype:protein_coding则是筛选出蛋白编码基因对应的记录。

    mkgtf标准命令 mkgtf范例

    写命令:

    3.1

    将Oar 3.1只筛选出蛋白编码基因对应的记录于Ovis_aries.Oar_v3.1.92.chr.filtered.gtf 文件中,用同样的办法对Oar4.0筛选失败,原因报错是gtf格式有问题,猜测可能是因为基因组gff格式来源不同,3.1来源于ENSEMBL,4.0来源于NCBI。

    其次cellranger mkref建索引,官网中说到需要基因组文件fasta和经mkgtf过滤的注释文件filtered gtf。而--genome=output_genome则是写着输出的文件名。最基础的命令使用方式见下图:

    mkref标准命令

    我的命令是:

    3.1

    跑的过程中界面显示:

    跑完之后,结果保存至ovis3.1_genome文件夹中。

    再用cellrangercount,见实验记录4。

    2、Cell Ranger流程概览

    重点:指定fastq文件位置要求,见实验记录4

    https://mp.weixin.qq.com/s/v2S8obShNRpeTRFQt2PrwQ

    3、来自邮件:0121和0122样本使用的是bcl2fastq软件,将basecall files转变成FlowCell中每条lane上每个文库对应的FASTQ文件。

    测序平台是Illumina NovaSeq6000,是双端测序,测序读长为150bp。文件名没有体现这些信息。

    190201_A00682_0056_BHHNNKDSXX文件夹中是小测的数据,也就是第一次上机的数据,190223_A00262_0238_BHFNVVDSXX和190228_A00679_0057_BHFML2DSXX文件夹中均为大数据量上机的数据,也就是第二次和第三次上机的数据。

    由于第二次上机后,数据产出没有达到合同要求的数据量,所以我们安排了加测,也就有了第三次上机。分析的时候将三次数据合并分析的。

    相关文章

      网友评论

        本文标题:2019-06-05

        本文链接:https://www.haomeiwen.com/subject/hfsjxctx.html