cd-hit的使用

作者: Seafairy | 来源:发表于2019-06-20 01:09 被阅读0次

cd-hit的使用
CD-hit安装及使用
CD-HIT学习
cd-hit基因集去冗余
cd-hit 去除冗余序列
转录组重建系统发育（四）使用cdhit去冗余和使用transde
基因BIN来源分析（二）获取基因-BIN-样品/组TPM表，绘制
使用cd-hit对蛋白质或核酸序列进行聚类
cd-hit 基因集去冗余
CD-hit如何得到聚类转录本的数目

使用目的：protein sequence dataset 的去冗余（non-redundancy）

使用工具： cd-hit 在线网站

使用：

input：fasta file （我的dataset：分别是positive dataset 和 negative dataset）

out： .txt file.

参数设置-Sequence identity cut-off：

0.9: 相似性大于90%的序列归为一类

0.8: 相似性大于80%的序列归为一类

。。。。。

基本思路:

首先对所有序列按照其长度进行排序，

然后从最长的序列开始，形成第一个序列类，

然后依次对序列进行处理，如果新的序列与已有的序列类的代表序列的相似性在cutoff以上,则把该序列加到该序列类中，否则形成新的序列类。

一般使用cd-hit对protein dataset去冗余时，设置一个较低的identity cut-off，比如0.2-0.5(即相似性大于20-50%的序列都为一类）

参考： cd-hit介绍（包括优缺点）

cd-hit的使用
使用目的：protein sequence dataset 的去冗余（non-redundancy）使用工具： ...
CD-hit安装及使用
cd-hit是用于蛋白质序列或核酸序列聚类的工具，根据序列的相似度对序列进行聚类以去除冗余的序列，一般用于构建非冗...
CD-HIT学习
CD-hit 参数解读 -i 设置输入文件 -o 设置输出文件，可以将每次分析的ID阈值放到名称中，方便以后使用，...
cd-hit基因集去冗余
主页：http://weizhong-lab.ucsd.edu/cd-hit/[http://weizhong-l...
cd-hit 去除冗余序列
最近一篇NG中使用到的软件，用来去除冗余的contigs，现简单记录。 CD-HIT早先是一个蛋白聚类的软件，其主...
转录组重建系统发育（四）使用cdhit去冗余和使用transde
1.cd-hit的安装和使用 cd-hit 是用于蛋白质序列或核酸序列聚类的工具，根据序列的相似度对序列进行聚类以...
基因BIN来源分析（二）获取基因-BIN-样品/组TPM表，绘制
导读继续：基因BIN来源分析（一）cd-hit去冗余，salmon计算基因TPM[https://www.jia...
使用cd-hit对蛋白质或核酸序列进行聚类
2018.9.7 星期四多云 biolearn cd-hit 是用于蛋白质序列或核酸序列聚类的工具，根据序...
cd-hit 基因集去冗余
cd-hit 是用于蛋白质序列或核酸序列聚类的工具，根据序列的相似度对序列进行聚类以去除冗余的序列，一般用于构建非...
CD-hit如何得到聚类转录本的数目
今天在做miRNA分析，被一个问题困住了其中有一个步骤是用CD-hit把序列聚类去冗余，得到聚类的文件和去冗余后的...