美文网首页
6 RNA-seq数据和WXS数据分组及改名

6 RNA-seq数据和WXS数据分组及改名

作者: Y大宽 | 来源:发表于2019-06-11 22:42 被阅读0次

    总目录:三阴性乳腺癌全外显子分析(wes)


    下一步,需要把RNA-seq(448个样本)和WXS(279个样本)分开进行比对,所以首先要把他们分开,并重新命名
    具体信息见总目录


    1 找到原始分组信息

    下载SraRunTable.txt文件,里面有分组信息(这一步应该放在开始就更名完成),内容见下

    Assay_Type  Library_Name    Run
    RNA-Seq Lib_FUSCCTNBC001    SRR8518252
    WXS Lib_FUSCCTNBC001.TT_WES SRR8517928
    WXS Lib_FUSCCTNBC002.TT_WES SRR8517929
    RNA-Seq Lib_FUSCCTNBC003    SRR8518401
    RNA-Seq Lib_FUSCCTNBC003.PT SRR8518217
    RNA-Seq Lib_FUSCCTNBC004    SRR8518316
    RNA-Seq Lib_FUSCCTNBC005    SRR8518285
    RNA-Seq Lib_FUSCCTNBC005.PT SRR8518339
    WXS Lib_FUSCCTNBC005.TT_WES SRR8518032
    RNA-Seq Lib_FUSCCTNBC006.rep    SRR8518187
    WXS Lib_FUSCCTNBC006.TT_WES SRR8518006
    

    那么现在要以Library_Name来对Run进行重新命名
    而我的文件名现在是这样的

    SRR8517955_1_val_1.fq.gz  SRR8518077_2_val_2.fq.gz  SRR8518211_1_val_1.fq.gz  SRR8518332_2_val_2.fq.gz  SRR8518454_1_val_1.fq.gz  SRR8707666_2_val_2.fq.gz
    SRR8517955_2_val_2.fq.gz  SRR8518078_1_val_1.fq.gz  SRR8518211_2_val_2.fq.gz  SRR8518333_1_val_1.fq.gz  SRR8518454_2_val_2.fq.gz  SRR8707667_1_val_1.fq.gz
    SRR8517956_1_val_1.fq.gz  SRR8518078_2_val_2.fq.gz  SRR8518212_1_val_1.fq.gz  SRR8518333_2_val_2.fq.gz  
    

    所以首先

    • 1 把_val_1_val_2去掉,不去也行
    • 2 把SRR开头的替换成Library_Name

    2 去掉val

    sudo rename 's/_val_1//g' *.gz
    sudo rename 's/_val_2//g' *.gz
    

    顺便把report.txt也改了

    sudo rename 's/_trimming_report//g' *.txt
    

    现在显示为

    ├── SRR8707700_1.fastq.gz.txt
    ├── SRR8707700_1.fq.gz
    ├── SRR8707700_2.fastq.gz.txt
    ├── SRR8707700_2.fq.gz
    ├── SRR8707702_1.fastq.gz.txt
    ├── SRR8707702_1.fq.gz
    ├── SRR8707702_2.fastq.gz.txt
    ├── SRR8707702_2.fq.gz
    

    所以接下来把SRRX变为Library_Name

    3 批量更换RunLibrary_Name

    change_name

    现在 借助我熟悉的excel文件来做
    把下载的SraRunTable.txt文件,用excel进行处理,具体就是借助&命令进行连接,写到脚本里,内容如下

    mv SRR7696207_2.fq.gz Lib_FUSCCTNBC158.TT_WES_2.fq.gz
    mv SRR8517853_2.fq.gz Lib_FUSCCTNBC337.TT_WES_2.fq.gz
    mv SRR8517854_2.fq.gz Lib_FUSCCTNBC123.TT_WES_2.fq.gz
    mv SRR8517855_2.fq.gz Lib_FUSCCTNBC228.TT_WES_2.fq.gz
    mv SRR8517856_2.fq.gz Lib_FUSCCTNBC230.TT_WES_2.fq.gz
    mv SRR8517857_2.fq.gz Lib_FUSCCTNBC233.TT_WES_2.fq.gz
    mv SRR8517858_2.fq.gz Lib_FUSCCTNBC234.TT_WES_2.fq.gz
    

    最后改完名称之后为

    ├── [2.8G]  Lib_FUSCCTNBC001_1.fq.gz
    ├── [3.0G]  Lib_FUSCCTNBC001_2.fq.gz
    ├── [5.2G]  Lib_FUSCCTNBC001.TT_WES_1.fq.gz
    ├── [5.5G]  Lib_FUSCCTNBC001.TT_WES_2.fq.gz
    ├── [5.4G]  Lib_FUSCCTNBC002.TT_WES_1.fq.gz
    ├── [5.9G]  Lib_FUSCCTNBC002.TT_WES_2.fq.gz
    ├── [1.8G]  Lib_FUSCCTNBC003_1.fq.gz
    ├── [2.0G]  Lib_FUSCCTNBC003_2.fq.gz
    ├── [2.6G]  Lib_FUSCCTNBC003.PT_1.fq.gz
    ├── [2.8G]  Lib_FUSCCTNBC003.PT_2.fq.gz
    ├── [2.2G]  Lib_FUSCCTNBC004_1.fq.gz
    ├── [2.4G]  Lib_FUSCCTNBC004_2.fq.gz
    ├── [3.3G]  Lib_FUSCCTNBC005_1.fq.gz
    ├── [3.7G]  Lib_FUSCCTNBC005_2.fq.gz
    ├── [1.8G]  Lib_FUSCCTNBC005.PT_1.fq.gz
    ├── [2.0G]  Lib_FUSCCTNBC005.PT_2.fq.gz
    ├── [4.8G]  Lib_FUSCCTNBC005.TT_WES_1.fq.gz
    ├── [5.2G]  Lib_FUSCCTNBC005.TT_WES_2.fq.gz
    ├── [2.6G]  Lib_FUSCCTNBC006.rep_1.fq.gz
    

    至此更名工作完成,做起来也非常快就几分钟,但对我来说,第一是保证不出错。后面再添加脚本。
    下面再进行分组,名称中有WES的都为WXS数据

    上述改名可以用shell脚本更改,详细过程见

    shell脚本批量对文件改名(名字新旧不相关)

    4 分组

    分别建立wes和RNA-seq文件夹

    mkdir wes
    mkdir RNA-seq
    mv *TT_WES* wes
    mv Lib* RNA_seq/
    cd wes
    ls|grep WES_1|wc
        279     279    8928
    cd ../RNA_seq
    ls *1.fq.gz|wc
        448     448   11600
    

    到现在为止,就完成了分组和改名工作,继续进行下面外显子分析部分,等最后再分析RNA-seq数据。

    相关文章

      网友评论

          本文标题:6 RNA-seq数据和WXS数据分组及改名

          本文链接:https://www.haomeiwen.com/subject/gelqfctx.html