美文网首页
Linux019 生信人的linux考试题

Linux019 生信人的linux考试题

作者: caoqiansheng | 来源:发表于2020-08-22 22:04 被阅读0次

    参考来源

    生信人的linux考试
    linux作业

    1. 在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。
    mkdir -p 1/2/3/4/5/6/7/8/9 
    

    2.在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt

    # 使用相对路径
    touch 1/2/3/4/5/6/7/8/9/me.txt
    # 使用绝对路径
    # touch /home/caoqiansheng/biotreeTest/1/2/3/4/5/6/7/8/9/me.txt
    
    前两题效果
    1. 在文本文件 me.txt 里面输入内容:
      Go to: http://www.biotrainee.com/
      I love bioinfomatics.
      And you ?
    # 使用vim编辑器打开me.txt
    vim  1/2/3/4/5/6/7/8/9/me.txt
    # 输入i进入插入模式
    i
    # 输入文本
    Go to: [http://www.biotrainee.com/](http://www.biotrainee.com/)
    I love bioinfomatics.
    And you ?
    # 按 ESC 键退出插入模式回到普通模式,再按下 :,进入命令行模式,输入wq,保存数据并退出vim
    # 查看me.txt内容
    cat 1/2/3/4/5/6/7/8/9/me.txt
    
    image.png

    4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

    # 在文件夹1所在目录,使用rm -r命令删除
    rm -r 1
    

    5.在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹,效果如下

    mkdir -p folder{1..5}/folder{1..5}
    
    image.png
    1. 在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ,内容也要一样。(这个题目难度超纲,建议一个月后再回过头来做)
    # xargs 命令将传递echo命令,-n参数指定次数,cp -v显示拷贝详细的进行步骤
    echo folder{1..5}/folder{1..5} | xargs -n 1 cp -v 1/2/3/4/5/6/7/8/9/me.txt
    

    xargs 是给命令传递参数的一个过滤器,也是组合多个命令的一个工具,可以将管道或标准输入(stdin)数据转换成命令行参数,也能够从文件的输出中读取数据,
    xargs 也可以将单行或多行文本输入转换为其他格式,例如多行变单行,单行变多行。
    xargs 默认的命令是 echo,这意味着通过管道传递给 xargs 的输入将会包含换行和空白,不过通过 xargs 的处理,换行和空白将被空格取代。
    xargs 是一个强有力的命令,它能够捕获一个命令的输出,然后传递给另外一个命令。之所以能用到这个命令,关键是由于很多命令不支持|管道来传递参数,而日常工作中有有这个必要,所以就有了 xargs 命令
    命令格式:
    somecommand |xargs -item command
    参数:
    -a file 从文件中读入作为sdtin
    -e flag ,注意有的时候可能会是-E,flag必须是一个以空格分隔的标志,当xargs分析到含有flag这个标志的时候就停止。
    -p 当每次执行一个argument的时候询问一次用户。
    -n num 后面加次数,表示命令在执行的时候一次用的argument的个数,默认是用所有的。
    -t 表示先打印命令,然后再执行。
    -i 或者是-I,这得看linux支持了,将xargs的每项名称,一般是一行一行赋值给 {},可以用 {} 代替。
    -r no-run-if-empty 当xargs的输入为空的时候则停止xargs,不用再去执行了。
    -s num 命令行的最大字符数,指的是 xargs 后面那个命令的最大命令行字符数。
    -L num 从标准输入一次读取 num 行送给 command 命令。
    -l 同 -L。
    -d delim 分隔符,默认的xargs分隔符是回车,argument的分隔符是空格,这里修改的是xargs的分隔符。
    -x exit的意思,主要是配合-s使用。。
    -P 修改最大的进程数,默认是1,为0时候为as many as it can ,这个例子我没有想到,应该平时都用不到的吧。

    1. 再次删除掉前面几个步骤建立的文件夹及文件
      rm命令

    8.下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面选择含有 H3K4me3 的那一行是第几行,该文件总共有几行。

    # wget命令下载文件
    wget http://www.biotrainee.com/jmzeng/igv/test.bed
    # grep命令查找文件关键词
    grep -n H3K4me3 test.bed
    # wc(Word Count)命令统计指定文件中的字节数、字数、行数
    wc test.bed
    
    image.png
    1. 下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解压,查看里面的文件夹结构
    # 下载文件
    wget  http://www.biotrainee.com/jmzeng/rmDuplicate.zip
    # 解压
    unzip rmDuplicate.zip
    # 查看文件夹结构
    tree rmDuplicate
    
    image.png

    10.打开第9题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚生物信息学里面的SAM/BAM 定义是什么。

    # 进入rmDuplicate/samtools/single
    cd ./rmDuplicate/samtools/single
    # 查看sam文件
    less -SN tmp.sam
    # 或使用相对/绝对路径查看
    # less -SN /home/caoqiansheng/biotreeTest/rmDuplicate/samtools/single/tmp.sam
    #  less -SN ./rmDuplicate/samtools/single/tmp.sam
    

    SAM:SAM (Sequence Alignment/Map) 格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。
    BAM:BAM是SAM的二进制形式

    11.安装 samtools 软件
    linux软件安装使用conda,详见
    Linux009 Ubuntu软件安装
    Linux010 Miniconda安装生信软件

    # 新建测试环境
    conda create -n test
    # 激活新建环境
    conda activate test
    # conda安装过程,所有步骤均选yes
    conda install -y samtools
    samtools --help
    

    但是在运行samtools时发现报错
    samtools: error while loading shared libraries: libtinfow.so.5: cannot open shared object file: No such file or directory
    解决办法参考 https://www.jianshu.com/p/9ae2219e237b,使用conda-forge库安装ncurses
    conda install -c conda-forge ncurses

    1. 打开后缀为BAM 的文件,找到产生该文件的命令。 提示一下命令是:
      /home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp
    # find命令查找文件
    find ./biotreeTest/rmDuplicate/ -name *.bam
    # 用samtools 的 view命令查看bam文件,-H选项输出文件的头部注释
    samtools view -H ./biotreeTest/rmDuplicate/picard/paired/tmp.sorted.bam
    

    产生该文件的命令在最底部,如下


    image.png
    1. 根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。
    # 找到含有@SQ的行,打印出第二列,去处所有含'_'的行,然后计数
    samtools view -H ~/rmDuplicate/samtools/single/tmp.sorted.bam | grep @SQ | awk '{print $2}' | grep -v '_' | wc -l 
    # samtools view -H ~/rmDuplicate/samtools/single/tmp.sorted.bam | grep @SQ | awk '{print $2}' | grep -v '_' | sed -n '$='
    

    统计出共有25条染色体

    1. 上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数。
    samtools view ~/rmDuplicate/samtools/single/tmp.sorted.bam | awk '{print $2}' | sort -n | uniq -c 
    # samtools view ~/rmDuplicate/samtools/single/tmp.sorted.bam | cut -f 2 | sort -n | uniq -c
    
    1. 重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计
    samtools view ./biotreeTest/rmDuplicate/samtools/paired/tmp.sorted.bam | cut -f 2 | sort -n | uniq -c
    #  samtools view ./biotreeTest/rmDuplicate/samtools/paired/tmp.sorted.bam | awk '{print $2 }' | sort -n | uniq -c
    
    
    1. 下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解压,查看里面的文件夹结构, 这个文件有2.3M,注意留心下载时间及下载速度。
    wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
    unzip sickle-results.zip
    tree sickle-results
    
    image.png
    1. 解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?
    cd ~/sickle-results
    unzip ./single_tmp_fastqc.zip
    tree
    cd
    less -SN  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt
    cat  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | sed -n '/^>>/p' | wc -l
    # cat  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | grep '^>>' | wc -l
    # cat  ~/sickle-results/single_tmp_fastqc/fastqc_data.txt | awk '/^>>/{print $0}' | wc -l
    

    18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。
    https://www.ncbi.nlm.nih.gov/gene/7157

    wget -c http://www.biotrainee.com/jmzeng/tmp/hg38.tss 
    cat ~/hg38.tss | grep -n NM_000546
    
    1. 解析hg38.tss 文件,统计每条染色体的基因个数。
    less -SN hg38.tss | cut -f 2 | grep -v '_' | sort -n | uniq -c
    
    1. 解析hg38.tss 文件,统计NMNR开头的,熟练了解NMNR开头的含义
    cat ~/hg38.tss | awk '/^NM|^NR/{print $1}' | wc -l 
    cat ~/hg38.tss | awk '/^NM/{print $1}' | wc -l
    cat ~/hg38.tss | awk '/^NR/{print $1}' | wc -l
    # cat ~/hg38.tss | awk '{print $1}' | cut -c 1-2 | sort -n | uniq -c
    

    相关文章

      网友评论

          本文标题:Linux019 生信人的linux考试题

          本文链接:https://www.haomeiwen.com/subject/pqovjktx.html