生信数据分析新手常见问题

作者: 生信石头 | 来源:发表于2018-11-03 09:47 被阅读176次

生信数据分析新手常见问题
数据分析方法论
解密大数据专栏文章分类【转】
解密大数据专栏文章分类
服务器上安装Rstudio-server
单基因生信分析流程（5）计算单基因相关miRNA
单基因生信分析流程（2）一文解决差异分析、基因相关分析问题
单基因生信分析流程（3）一文解决生存分析和临床参数相关分析
生物信息学数据分析生信技能树免费做了
生信格式SAM、BAM

写在前面

写一个帖子，慢慢收录一些看起来似乎很简单，确实比较常见的数据分析新手的问题。

为什么一个样品测序之后，会对应两个文件？而且两个文件大小还不同？

双端测序（PE）本身就是对一个片段的两个方向分别测一次。所有一个样品会对应两个文件，其中一个是所谓的正向（事实是，测的第一链条，即Forward），常见文件命名会带有_1或者.1；另外一个，是所谓的反向（事实是，测的第二链，即Reverse Complement），常见文件命名会带有_2或者.2。
如下，其中a图会引物会引导测序，125个bp，并产生正向测序读段文件；c图中引物会引导测序，125bp，并产生反向测序读段文件

正反向都是测同样长度的读段，比如125bp，从字符数目来计算，文件似乎应该是一样大。为什么文件大小为什么会不同？比如一个是2.0G，另一个2.2G。造成这么大差别，主要原因是看到的都是.gz压缩文件，压缩的算法有很多，基本上没有一个算法是不受文本复杂度限制的。正反向记录的碱基必然是不同的，至少顺序必然是不同的，所以压缩的效果会有差异，最后文件大小会有差异。