美文网首页
Bulk VDJ测序数据处理基本方法

Bulk VDJ测序数据处理基本方法

作者: 明远鸢 | 来源:发表于2020-09-18 16:08 被阅读0次

    本文为免疫组库数据预处理,仅简要介绍大体处理策略,更详细的命令行以及命令行和输出结果的意义,请大家自行查看各个工具的详细说明文档!

    免疫组库测序,从文献和公开数据库搜寻来的数据,预处理策略简要介绍如下:

    1. 数据集格式统统化简为vdjtools输入格式

    目前,免疫组库分析工具相当多,这些分析工具得到的结果,格式往往不同。我建议,拿到免疫组库数据后,把数据统统转换为vdjtools的格式。首先,这种格式非常简洁明了,一共11列,每一列定义如下:

    Column Definition
    count 克隆数目
    frequency 克隆占比
    CDR3nt CDR3核酸序列
    CDR3aa CDR3氨基酸序列
    V V区
    D D区
    J J区
    Vend CDR3核酸序列上,V区结束的位置
    Dstart CDR3核酸序列上,D区起始的位置
    Dend CDR3核酸序列上,D区结束的位置
    Jstart CDR3核酸序列上,J区开始的位置

    最后四列为可选输入,主要信息在前7列中都包括了。

    使用vdjtools转格式非常简单,下载vdjtools的java包,使用vdjtools convert模块,按如下命令运行:

    java -jar vdjtools-1.2.1.jar convert -S tool_name input_file out_prefix
    

    其中,-S 参数表示输入数据的格式,必须要输入。vdjtools支持10种工具格式的转换,详见vdjtools-format。若不知道数据输入格式,可以尝试使用R包immunarch中的repLoad函数。immunarch同样支持上述多种工具的结果作为输入,而且repLoad读取这些输入的时候会自动识别输入格式。具体代码参见这里

    2. 从Reads拿到免疫库克隆列表

    从测序Reads拿到克隆库列表,推荐使用MixCR。同样是java包,使用非常简单。首先,软件自带人、大小鼠的免疫库参考序列,使用的时候只要指定物种名即可。该工具把比对、克隆序列构建和克隆计数等步骤统一打包,使用mixcr analyze模块,一行代码即可实现一个免疫库测序样品的分析。示例命令行如下:

    mixcr analyze amplicon # 扩增子测序
        -s <species> \ # 物种名称,hsa、mmu或rat
        --starting-material <startingMaterial>  \ # 测序材料、dna或rna
        --5-end <5End> --3-end <3End> \  # 引物信息
       --receptor-type xcr \ # 测序目标区段:tcr, bcr, tra, trb, trg, trd, igh, igk, igl等,xcr默认为所有区段
        --adapters <adapters> \  # 序列中是否包含引物?Raw Reads可以填adapters-present
        [OPTIONS] input_file1 [input_file2] analysis_name
    

    MixCR得到的结果,同样可以使用vdjtools convert进行转换,变成vdjtools简洁明了的格式。

    相关文章

      网友评论

          本文标题:Bulk VDJ测序数据处理基本方法

          本文链接:https://www.haomeiwen.com/subject/dpsjyktx.html