基因家族和近缘物种昨天查的差不多了,整理了ppt给老板。老板秒回。
按照计划,至少下礼拜之前我应该做完基因组圈图。染色体长度,基因密度,GC含量,重复序列含量,甲基化水平,染色体同源区域等(Circos的安装和简单使用 | 陈连福的生信博客 (chenlianfu.com))Windows安装圈图软件circos - 华大基因学院 - 博客园 (cnblogs.com)
其实我一直在考虑一个问题就是,我和那些硕士就开始进行生信分析学习的基因组学专业的研究生的三年学习会有什么区别,主要是我看了一些中文的硕士毕业论文,感觉以我目前的学习进度估计会得到和他们差不多的结果。所以我觉得我的文章分析应该需要更深入,故事要讲的更有意义才会发不是很低分的文章出来。
目前了解的情报:一些数据库里的基因组数据,fasta或者gff,可能需要预处理才能进行下一步分析。
如何从NCBI下载基因组序列和注释文件并统计基因个数 - 简书 (jianshu.com)
根据GFF3文件统计外显子大小和数量以及内含子大小 - 简书 (jianshu.com)
#GTF/GFF格式# gffread入门使用 - 简书 (jianshu.com)
基因家族鉴定 hmmer+blast (含hmmer安装) - 简书 (jianshu.com)
我手里的文件是HiC测序的,老师已经归出来12条染色体,但是还有一些scaffold对不上去。然后12条染色体的原名称是scaffold名称,然后我用tbtools把gff转成基因密度文件的时候,想把scaffold名称改成染色体名称这样能对应到图上,但是发现每条染色体上多的时候改了一万多条基因。我不懂为啥。
网友评论