美文网首页
分享一个鉴定同源lncRNA基因的方法

分享一个鉴定同源lncRNA基因的方法

作者: 小潤澤 | 来源:发表于2024-01-13 15:58 被阅读0次

文章链接为:《Computational prediction and experimental
validation identify functionally conserved
lncRNAs from zebrafish to human》

Github:https://github.com/huangwenze/lncHOME_analysis/tree/main

1. 从转录本数据鉴定出lncRNA的注释

对于小鼠和人的数据, human:(GENCODE v25) 和 mouse:(GENCODE vM10)。剩下的6个脊椎动物 cow, opossum, chicken, lizard, frog and zebrafish 则是在NCBI上下载转录组序列,进行转录本组装,鉴定lncRNA,鉴定的步骤为:

  1. 利用 FastQC 生成质量报告。
  2. 利用 Trimmomatic 过滤低质量的reads
  3. 利用STAR 的 TwoPass Mode (参数为 --sjdbFileChrStartEnd)将reads进行mapping并生成 bam 文件
  4. 利用 StringTie 进行转录本组装,用 Cufflink 进行注释文件的 merge
  5. 选择 length (≥200 nt), expression level (FPKM > 0.5) and protein-coding potential (CPAT v3.0.0 (ref. 32), CPAT score >0.5)length (≥200 nt), expression level (FPKM > 0.5) and protein-coding potential (CPAT v3.0.0, CPAT score >0.5) 的基因定义为 lncRNA

最后,作者从Ensembl, NCBI, NONCODE, DeepBase and the Ulitsky laboratory 这几个数据库中下载对应物种的lncRNA注释,然后和上面鉴定出来的lncRNA注释merge到一起,组成 final lncRNA 的注释

2. 选择序列相似性高的lncRNA序列对

对于两个序列的protein-coding 和 lncRNA 序列,作者利用序列相似性来初步判断它们是否同源(BLAST v2.12.0 bl2seq ,E value < 10−4, hit length >50 nt,overall sequence identity >50%)

并且定义两个物种基因数量保守的相似性为:


其中:x 为物种 1 中 protein-coding (或者 lncRNA)genes的数量;y为物种 2 中 protein-coding (或者 lncRNA)genes的数量;n 代表两个物种共有的 protein-coding (或者 lncRNA)genes的数量

3. 由protein-coding gene 的同源性预测 lncRNA基因的同源性

作者从 OrthoDB 中下载对应物种的protein-coding gene的信息,并且以某个基因为原点,向上下游各拓展到 1Mbp,在这 1Mbp 的范围内(不包括基因)利用双序列比对的方法寻找 Genomic anchors

这个 Genomic anchors 的计算方式是通过ucsc的chain file来实现的,具体两个物种或者两个版本的基因组的chain file的解释参见:https://www.zxzyl.com/archives/838/

个人感觉

Genomic anchors代表的是ungapped的区域

如何生成 chain 文件?可以参考:

  1. 使用liftover创建注释Chain文件(基因组坐标转换)
  2. 使用transanno制作不同基因组版本坐标映射的chain 文件?

理解 Genomic anchors 后,作者在某基因1Mbp的范围内划分upstream和downstream


如上图所示:

  1. 设 mu1 代表物种1在upstream区域内对应点的个数
  2. 设 mu2 代表物种2在upstream区域内对应点的个数
  3. 设 mu 代表物种2在upstream区域内Genomic anchors的个数(连线的点)
  4. 设 md1 代表物种1在downstream区域内对应点的个数
  5. 设 md2 代表物种2在downstream区域内对应点的个数
  6. 设 md 代表物种2在downstream区域内Genomic anchors的个数(连线的点)
  7. 设 mf1 代表物种1在upstream+downstream区域内对应点的个数
  8. 设 mf2 代表物种2在upstream+downstream区域内对应点的个数
  9. 设 mf 代表物种2在upstream+downstream区域内Genomic anchors的个数(连线的点)

对于upstream和downstream的区域如上图b所示,定义proportion score mu为:


proportion score mu 和 proportion score mf 的定义类似
因此,作者利用 OrthoDB protein-coding的同源基因,按照上述图b方法,计算mu1,mu2,md1,md2,mf1,mf2,proportion score mu,proportion score md,proportion score mf 这几个特征。
正负样本区分如下:



利用随机森林训练模型,然后用鉴定出来的lncRNA去进行预测,判断lncRNA基因对是否同源

相关文章

  • SwiftOrtho鉴定同源基因

    SwiftOrtho是19年出的鉴定同源基因的软件,相比与OrthoMCL,可以多线程,运行速度大大提升。文章:S...

  • step1.双向Blast——gene family ident

    使用双向blast鉴定同源基因关系。 数据: P.heterocycla-v1.0.CDS-Proteins(毛竹...

  • lncRNA保守性分析

    lncRNA保守性分析 lncRNA是非编码RNA,许多lncRNA位于基因间区,独立成为一个基因。在千百万年的...

  • 工具 | OrthoMCL 同源基因鉴定

    Web 版使用 网页版地址:Web site[https://orthomcl.org/orthomcl/prot...

  • OrthoMCL鉴定直系同源基因

    OrthoMCL[http://orthomcl.org/orthomcl/]是目前最常用的基因家族分析软件,是一...

  • 同源基因鉴定 | OrthoFinder 2.0 + MAFFT

    写在前面 写这个贴子纯粹为了记录一下自己的双面打工人的生活,然后再总结一下自己的工作方法还有哪些地方存在问题,希望...

  • LncRNA的鉴定

    长非编码RNA(lncRNA)是功能性非翻译分子,长度超过200个核苷酸,具有多种作用,例如染色质修饰,转录调控和...

  • WGD全基因组复制

    一:软件安装 二:程序运行 1.wgd mcl鉴定基因组内的同源基因 输出文件夹里面有两个文件: *.tsv: B...

  • TE的鉴定

    转座子鉴定方法 转座子的鉴定方法基本归于两大类:从头预测、基于同源比对。 从头预测算法 de novo 包括:基于...

  • 跨物种比较(同源基因)

    Homolog genes 同源基因是来自一个共同个祖先DNA序列的genes。不同物种中的同源基因指的是直系同源...

网友评论

      本文标题:分享一个鉴定同源lncRNA基因的方法

      本文链接:https://www.haomeiwen.com/subject/zjaxodtx.html