拷贝数变异数据的生物信息学

作者: 所以suoyi | 来源:发表于2021-03-10 17:03 被阅读0次

R语言合并TCGA中CNV矩阵
什么是拷贝数变异CNV
拷贝数变异数据的生物信息学
2021-02-24--TCGA 拷贝数变异数据分析
【SCI复现】绘制CNV棒棒糖图
【单细胞转录组】inferCNV第二次总结
单细胞笔记2-inferCNV的使用
对CCLE数据库可以做的分析
NCBI Gene数据库中检索基因结构
癌症基因组重测序分析五

2021/03/10

Bioinformatics for Copy Number Variation Data

CNV(copy number variant)：是一种结构遗传变异，主要是由于重复，缺失，插入和不平衡易位事件。

CNV形成的几种机制：

1、减数分裂重组 meiotic recombination
2、双链断裂的同源定向和非同源修复 homology-directed and nonhomologous repair of double-strand breaks
3、复制错误 errors in replication

CNP(Copy Number Polymorphisms)：拷贝数多态性是在人群中超过1%存在的常见的CNV，而在不到1%的人群中发现的CNV被认为是罕见的。

数据库：

Database of Genomic Variants (DGV)：从档案SV数据库dbVar（NCBI）和DGVa（EBI）的入选数据集中选择DGV中包含的研究，然后对其准确性和有效性进行进一步的整理。关于结构变异，不限于CNV
variantaccession、chr、start、end、varianttype、variantsubtype、reference pubmedid、method、platform、mergedvariants、supportingvariants、mergedorsample、frequency、samplesize、observedgains、observedlosses、cohortdescription、genes、samples

CNV的功能影响

1、细胞表型如基因表达
2、人类疾病的遗传基础
inherited diseases、complex diseases 和 cancer
例：neuroblastoma breakpoint family (NBPF) gene 神经母细胞瘤断裂点家族(NBPF)基因，位于1号染色体上的片段重复区域。

估计CNV方法：

1、比较基因组杂交 Comparative genomic hybridization (CGH)

CGH基于不同荧光标记测试的竞争性原位杂交和与正常的人类中期染色体有关的参考DNA。
沿染色体长测量的荧光强度比与实验和reference中相应DNA序列的拷贝数之比大约成比例。
低分辨率，只有5-10Mb

2、阵列CGH

Bacterial artificial chromosome (BAC) clone 细菌人工染色体克隆文库：是含有某种生物体全部基因的随机片段的重组DNA克隆群体，是进行全基因组测序、构建物理图谱、染色体筛查、基因筛选及基因图位克隆的基础。
phage artificial chromosome (PAC) clone 噬菌体人工染色体克隆

3、高密度寡核苷酸微阵列 high-density oligonucleotide microarrays

通过单个DNA样本的杂交进行
信噪比 signal-to-noise ratio：使用限制性内切酶处理DNA样品成短片段，连接接头，使用通用的引物序列进行PCR扩增，经荧光标记后与芯片杂交。
信号强度可确定基因型并估计拷贝数。

CNV的检测

使用高密度寡核苷酸微阵列方法检测CNV的一个主要关注点在于确定给定CNV的断点breakpoint。

基因组变异检测算法 --->R包

segmentation methods
step1、稀疏贝叶斯学习模型（ sparse Bayesian learning (SBL) model）：确定给定CNV最有可能的候选断点
step2、反向消除（backward elimination (BE)）：可连续删除最小显著的断点，允许修改错误发现率False Discovery Rate（FDR）