看的教程太多了,有的可行有的不可行,故整理,新学了用visual studio写markdown文件,这样以后说明部分和代码部分可以分清。
一、做一个基因组文章中常见且必备的基因组圈图需要什么文件。
①染色体条数和染色体长度文件。
如果使用tbtools,就是txt
格式的,两列,一列染色体名称,一列染色体长度(做法:使用TBtools中的FASTA Stats
工具:Sequence Toolkit
>>Fasta Tools
>>Fasta Stats
,使用Fasta Stats
输出得到plant-chrlen.xls
)。
如果是两个物种就把俩个物种的染色体名称做一下区别,接在同一个文件里即可。tbtools会把染色体放在里面一圈。如果染色体数量较多可能会看不清。如果是circos作图,也需要txt格式的染色体核型,格式如下。
chr - chr1 chr1 0 30427617 chr1
chr - chr2 chr2 0 19698289 chr2
chr - chr3 chr3 0 23459830 chr3
chr - chr4 chr4 0 18585056 chr4
chr - chr5 chr5 0 26975502 chr5
染色体 占位符 图显名称 染色体编号 起始长度 终止长度 染色体颜色
②GC含量文件
linux系统下操作:
#准备滑窗
cut -d ' ' -f 3,6 karyotype.txt | tr ' ' '\t' >genome.txt #获取基因组文件
bedtools makewindows -g genome.txt -w 100000 >genome.windows #以100kb为滑窗,沿染色体创建窗口
#每滑窗内的GC含量计算
bedtools nuc -fi your/genome.fa -bed genome.windows | cut -f 1-3,5 | sed '1d' > gc_rate.txt #按照滑窗统计GC含量
③基因密度文件。
TBtools中的FASTA Stats工具:Sequence Toolkit>Gff3/Gtf Manipulate>Gene Density Profile,输入选择你的gff3文件,输出txt文件。
二、做一个物种内共线性文件需要什么文件
全基因组序列、cds或pep序列、gff3/gtf序列三者缺一不可。
。
网友评论