美文网首页走进转录组转录组
真核有参转录组测序标准分析

真核有参转录组测序标准分析

作者: 他强 | 来源:发表于2021-09-12 21:21 被阅读0次

    本篇文章主要站在你是分析数据者的角度来讲解,一些测序建库的原理与操作我只做简要说明,甚至一笔带过。关于更多详细内容大家都可以百度了解。主要的篇幅是从公司拿到双端测序的fq.gz后的故事。

    准备:一台服务器,参考基因组,基因注释文件。

    RNA-seq简介

    转录组测序数据产生(简述)

    将表型特异的组织提取RNA,然后送到测序公司,经过质检合格后,公司为RNA加接头,PCR富集,开始在仪器中测序。数据下机,发到客户手里。

    转录组测序数据量与下机数据(简述)

    不同物种的基因数量与大小都不尽相同,因此具体情况具体分析,可以跟导师商量讨论后在做决定。以我所在的实验室为例,二倍森林草莓基因组220M,共计大约34000个基因,一个样品测序数据量选择6G(这里的数据量指的是原始数据中碱基的数量,不是文件大小)。另外,测序策略一般都是选择双端测序,建库类型选择真核普通转录组文库。若注释基因组,则选择真核链特异性文库(此文库以后的文章会讲)。

    公司的下机数据都是rawdata形式的,这是最原始数据,其中包含一些质量不好的碱基,并且还有接头序列。一般会让公司做去除接头并且去除质量不好的reads,拿到cleandata数据,做这个操作好像一个样加10块(这几天送样做三代测序和二代基因组重测序,公司告诉我这个操作不要钱,都是直接给客户cleandata)。总之,我实验室的其他人都是直接告诉公司要cleandata。Rawdata自己也要保存一份。并且公司还有给一个md5.txt之类的文本(文件很重要,检查文件的完整性)。

    测序数据上传到服务器

    我个人一直用Xftp7(https://www.xshellcn.com/xiazai.html)上传数据到服务器中,填写信息后就会把软件发到邮箱中,下载安装即可。安装后,点击右上角文件,新建。

    名称:自己随便设置

    主机:填写服务器IP。

    方法:选择Password。

    用户名与密码:填写你在服务器下的账户名与密码即可。

    连接成功后,如下图。

    两边都可以互相传输,用鼠标选择文件与要传输到的文件夹,右击传输即可。

    检查文件的完整性

    首先第一步先检查文件是不是完整的。因为可能在下载文件的过程中断网,电脑死机黑屏导致文件没有下载完全,但是没有消息提示你,因此必须检验文件是否完整。

    举例:

    这是公司给我的一个样品双端测序的文件,并且还有一个md5.txt文本。

    hsq_md3.txt内容如下:

    第二列是检验的文件名,第一列是文件对应的”数字密码”,检测时,如果能对应上第一列的数字,则文件完整。检测时,文件与md5.txt文本必须在同一目录下。

    命令:md5sum-c hsq_md5.txt

    结果如下:两个OK,表示文件完整。

    我将s1_1.clean.fq.gz提取前1000行,文件名设置一样。结果如下:

    可以看到s1_1.clean.fq.gz显示FAILED,说明文件不完整。

    本节先介绍到这里,下节会介绍如何查看测序文件以及fastqc检测测序文件。

     ---End---

    相关文章

      网友评论

        本文标题:真核有参转录组测序标准分析

        本文链接:https://www.haomeiwen.com/subject/kogtgltx.html