寻找基因组中具特定式样的序列，然后分析其进化特征

作者: Ting_Wang | 来源:发表于2018-07-25 10:50 被阅读0次

寻找基因组中具特定式样的序列，然后分析其进化特征
[13] 9 下游分析 & 9.1 基因组 contex
快速从FASTA文件中提取特定序列
4️⃣ 核酸序列特征分析(2):CpG岛预测
生信课程笔记8-序列特征和基因模型
新型冠状病毒的信息汇总与分析 (形态，分类，基因组，进化，变异，
关于全基因组关联分析（GWAS）
对某个物种进行分子进化分析，保守序列提取以及CRISPR-gRN
重复序列注释
[Metagenome-2]Remove the host se

1 GenBank 获得序列

#要强化对Taxonomy数据库的使用，特别注意使用其ID；然后，建立检索结果的网页链接

构建不同类群的基因组表单 #csv

Geneious --> fasta 格式 #便于准备输入文件

掌握文本文件的读写

# with open('data.txt', 'r') as myfile:

data=myfile.read().replace('\n', '') 这样的语句更容易理解

准备原有、互补、反向互补和反向序列数据 #用BioEdit

2 用Pthyon的正则表达式模块 import re

构建正则表达式

finditer() 找出目标序列及其位置 #注意和findall()的区别，核心是要懂iterator

用?= --> 寻找overlapped序列 #不可遗漏

例子：

#给出匹配substring

text = 'AATTATAATTAT'

pattern = '(?=(A[AT][AT]))'

regexp = re.compile(pattern)

iter = regexp.finditer(text)

for s in iter:

.... print s.groups()

.... print s.span()

#输出

('AAT',)

(0, 0)

('ATT',)

(1, 1)

('AAT',)

(6, 6)

('ATT',)

(7, 7)

3 用HyPhy分析进化速率及选择压力

极大似然框架下分析：每个位点的替换数、转换速率、颠换速率、转换颠换比、dN、dS及dN/dS等基本特征

#优点是可在系统发育背景下进行估算，避免一些偏差

Spearman rank-correlation coefficient 和 Wilcoxon rank sum test

#非参分析：估算值之间的相关性和差异显著性

4 借助机器学习途径了解旁侧序列的文本特征

特定的特征

先试用较简单的模型和最近邻居聚类算法

网友评论

本文标题：寻找基因组中具特定式样的序列，然后分析其进化特征

本文链接：https://www.haomeiwen.com/subject/nixpmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

寻找基因组中具特定式样的序列，然后分析其进化特征

1 GenBank 获得序列

2 用Pthyon的正则表达式模块 import re

例子：

3 用HyPhy分析进化速率及选择压力

4 借助机器学习途径了解旁侧序列的文本特征

相关文章

寻找基因组中具特定式样的序列，然后分析其进化特征

[13] 9 下游分析 & 9.1 基因组 contex

快速从FASTA文件中提取特定序列

4️⃣ 核酸序列特征分析(2):CpG岛预测

生信课程笔记8-序列特征和基因模型

新型冠状病毒的信息汇总与分析 (形态，分类，基因组，进化，变异，

关于全基因组关联分析（GWAS）

对某个物种进行分子进化分析，保守序列提取以及CRISPR-gRN

重复序列注释

[Metagenome-2]Remove the host se

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读