今天给大家介绍的是BioC中的一个非常重要的软件包:IRanges
一个range代表的是序列上的一段区间,通常由2个整数表示,分别为区间的开始位置(start)和结束位置(end)。
生信分析中时时处处离不开ranges,比如:
- gene的注释文件(GTF,GFF3,BED),就是ranges的集合,一个range可以表示gene或exon在chromosome上的位置
- reads的alignment文件(BAM,SAM),也是ranges的集合,一个range可以表示序列map到基因组上的位置
- SNP的位置也是一个range(长度为1)
- 生物信息学分析中的一些常用软件(Samtools, Bedtools),其功能大多是对ranges进行各种操作
因此,对于生信的初学者来说,掌握了ranges的操作工具就可以完成大部分的NGS数据分析。
我根据IRanges的文档制作了一个简单的IRanges入门教程(实际上是我个人的读书笔记)和大家分享。
![](https://img.haomeiwen.com/i2341232/57785a0f9f9bcc17.jpg)
我把教程放在个人网站(还在建设中)上,有兴趣的同学可以访问如下地址:
http://112.74.107.44/bioc/Learning_IRanges.html
细心的同学会发现,在IRanges的学习过程中并没有出现和生信相关的内容,那是因为IRanges提供的只是基础设施(infrastructure),而真正用来做生信分析的是下一期给大家介绍的GenomicRanges软件包,敬请关注!
![](https://img.haomeiwen.com/i2341232/7221ec9b34d1b814.jpg)
网友评论