用R语言实现计算高通量基因组测序数据的CNVs文献阅读

作者: Jason数据分析生信教室 | 来源:发表于2021-08-05 08:03 被阅读0次

用R语言实现计算高通量基因组测序数据的CNVs文献阅读
高通量测序技术及其在生命医学中的应用
Crack4-详解根据基因组测序报告，进行细菌基因组Genome
R学习笔记（一） - R的简介及安装
一个高杂合真菌基因组组装脚本（改代码版）
R语言计算多样性指数的平均值和方差
细胞器基因注释软件简介（一）
BWA源码阅读笔记（一）什么是nst_nt4_table
BWA源码阅读笔记（二）索引文件amb/ann/pac文件是什么
TIMER (Tumor Immune Estimation R

这篇文献详细介绍了R语言包vcfR的原理和效果。

Inferring Variation in Copy Number Using High Throughput Sequencing Data in R
Front. Genet., 13 April 2018 | https://doi.org/10.3389/fgene.2018.00123

计算CNVs一般有两种策略，一种是通过CNVs detection对拷贝数进行绝对定量，还有一种是通过基因整体的染色体倍数来进行相对定量。vcfR更接近于后者。主要是通过等位对立基因的比例来推断染色体倍数以及拷贝数差异。所以会用到高通量数据比对结果的格式文件VCF(variant call foramt)。所以如果研究目的是精确定量位点基因的拷贝数，就需要另寻出路了, 比方说 (Yoon et al., 2009; Abyzov et al., 2011; Klambauer et al., 2012; Li et al., 2012)。
文章首先对三款酵母进行了验证。分别是一倍体CBS7837,二倍体 CBS2919,三倍体CBS9564。通过计算两个频度最高的两个等位对立基因的比例可以清楚的推算出各自的染色体倍数体。