在下载人和小鼠基因组做为参考时,大多数可能只留意到了chr1-22,chrY,chrX和chrM的参考基因组序列,于是分别下载了25条染色体序列,合并成一个fasta文件,用bowtie2或者BWA构建index,用于下一步的read比对,然后是各种分析(包括突变、转录表达等)。
UCSC下载的hg19版本的整个参考基因组文件https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz中,除还包括chrrandom和chrUn序列(暂时理解为补丁序列,真实的补丁序列称呼常见assemble过程,见http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/info/patches.shtml,有fix 和novel patch,这里我们现在只讨论chrrandom和chrUn)。
The chr*_random sequences are unplaced sequence on those reference
chromosomes.
The chrUn_* sequences are unlocalized sequences where the corresponding reference chromosome has not been determined.
当然如果DNA或RNA测序的read比对到chrrandom 和 chrUn 序列上,显然大多数人都不关注这些序列上信息,我想这也是很多人不把chrrandom 和 chrUn 放到参考基因组fasta文件中的原因。但是,chrrandom 和 chrUn 显然是存在的,只不过现在暂时没有确定位置或者后续用于基因组序列更正。
如果参考基因组序列中不包含chrrandom 和 chrUn序列,那么原来属于chrrandom 和 chrUn的read则有可能比对到(不是一定)chr1-22,chrX,chrY上的相似区域(这些区域与chrrandom 和 chrUn中的部分区域相似),造成假阳性比对,后续这些reads提供的信息都是不可靠的。
如果参考基因组序列中包含chrrandom 和 chrUn序列,那么来自这些区域的reads则会正确的比对到这个地方,没有假阳性比对,只不过后续分析不需要考虑chrrandom 和 chrUn即可。
所以,参考基因组需要放chrrandom和chrUn序列,降低reads比对时的假阳性。
---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
网友评论